本页面所述的功能均包含在我们的全新 Pro 和 Enterprise 订阅中。了解更多... |
多因素方差分析(也称为 N 因素方差分析)是一种灵活的方差分析方法,可在单次分析中处理任意数量的因素。虽然 Prism 提供了针对单因素方差分析、双因素方差分析和三因素方差分析的专用分析功能,但多因素方差分析提供了一个统一的框架,不仅能处理上述所有设计,还能处理包含四个或更多因素的更复杂实验。
•您希望采用标准方法进行任意因子数的方差分析(多因素方差分析允许您使用相同的数据结构和相同的分析参数对话框,执行单因素方差分析、双因素方差分析、三因素方差分析或更高阶的设计)
•您有四个或更多因子(其他 Prism 方差分析无法处理)
•您希望采用一种可与“多变量”数据表配合使用的灵活方法
•您需要检验主效应及交互作用(最高可达三因子交互作用)
•您的实验设计为完全随机设计(所有组之间相互独立)
•支持 Prism 的“多变量”表格格式
•支持任意数量的因子(分类分组变量)
•检验所有因子的主效应
•检验所有因子两两之间的交互作用
•检验三个因子所有组合间的三级交互作用
•不检验四因子或更高阶交互作用
•目前仅支持普通(非重复测量)设计
•重复测量设计:如果您的任何因子涉及对同一受试者的重复测量,请使用专门的单因素方差分析、双因素方差分析或三因素方差分析
•对数正态方差分析:若数据采样自对数正态分布(多因素方差分析假设正态分布)。或者,在将数据纳入分析前,对对数正态变量进行对数转换
•Welch 或 Brown-Forsythe 方差分析:若各组方差显著不均等(仅限单因素方差分析)
•非参数检验:若数据不符合正态性假设且变换无法改善(Kruskal-Wallis检验、Friedman检验)
•对现有结果的熟悉度或连续性:这其实并不是避免使用多因素方差分析的充分理由,因为随着时间的推移,您将学会像使用 Prism 中以往的任何其他方差分析一样轻松地使用该分析及其结果。不过,如果您需要,那些其他分析方法依然可用!
因子是一种定义不同实验条件的分类变量(分组变量)。每个因子包含两个或更多水平(组)。
生物研究中的因子示例:
•处理(对照组、药物A、药物B)
•基因型(野生型、敲除型、杂合子)
•性别(男性、女性)
•年龄组(年轻、中年、老年)
•组织类型(肝脏、肾脏、心脏、大脑)
•时间点(0小时、6小时、12小时、24小时)
•饮食(标准、高脂、高蛋白)
•环境条件(标准、热应激、冷应激)
多因素设计示例:
假设您正在研究植物生长,涉及以下因素:
•因子 1 - 肥料:无、有机、合成(3 个水平)
•因子2 - 浇水:少、中、多(3个水平)
•因子 3 - 光照:荫蔽、半日照、全日照(3 个水平)
•因子 4 - 土壤 pH 值:酸性、中性、碱性(3 个水平)
这是一个 3 × 3 × 3 × 3 的实验设计,共有 81 种处理组合。多因素方差分析(ANOVA)可以同时分析这四个因素及其所有交互作用。
多因素方差分析将数据中的总变异分解,并检验多个假设:
主效应
对于每个因子,方差分析在控制其他所有因子的条件下,检验该因子的各水平之间是否存在差异。
示例问题:
•肥料是否存在效应?(在所有灌溉、光照和 pH 值组合中取平均值)
•存在浇水效应吗?(在所有肥料、光照和pH值的组合上取平均值)
•光照是否产生效应?(在所有其他因素上取平均值)
•pH值是否存在效应?(在所有其他因素上取平均值)
双因素交互作用
对于每一对因素,方差分析(ANOVA)用于检验一个因素的影响是否依赖于另一个因素的水平。
示例问题:
•肥料效应是否依赖于灌溉水平?(肥料 × 灌溉)
•光照效应是否依赖于pH值?(光照 × pH)
•肥料与光照之间是否存在交互作用?(肥料 × 光照)
当有4个因素时,可能存在6种双因素交互作用:
•肥料 × 浇水
•肥料 × 光照
•肥料 × pH
•浇水 × 光照
•灌溉 × pH
•光照 × pH
三因素交互作用
对于任意三个因子的组合,方差分析(ANOVA)用于检验两个因子之间的双因素交互作用是否依赖于第三个因子的水平。
示例问题:
•“肥料 × 浇水”的交互作用在不同光照水平下是否存在差异?
•“光照 × pH”的交互作用在不同肥料类型下是否存在差异?
当有4个因素时,可能存在4种三因素交互作用:
•肥料 × 浇水 × 光照
•肥料 × 浇水 × pH
•肥料 × 光照 × pH
•灌溉 × 光照 × pH
四因素及以上交互作用
Prism中的多因素方差分析无法检验四因子及以上交互作用。这些交互作用包括:
•在生物学上极难解读
•在实际中极少显著
•需要非常大的样本量才能可靠地检测到
•通常通过关注更简单的效应能更好地理解
来自四因子及以上交互作用的变异被合并到残差项中。
在多因素实验中,交互作用往往是最具科学价值的发现。以下示例为如何理解交互作用提供了一些指导。
双因素交互作用
二元交互作用意味着一个因子的效应依赖于另一个因子的水平。继续以研究肥料、灌溉水平、光照条件和土壤 pH 值对植物生长影响的实验设计为例,我们可以看出存在或不存在二元交互作用意味着什么。
若肥料与灌溉量之间不存在双因素交互作用:
•无论灌溉水平如何,施肥都能使植株高度增加10厘米
•肥料效应在各种灌溉条件下保持恒定
•效应呈加和性
如果肥料与灌溉量之间存在双因素交互作用:
•在高灌溉条件下,施肥可使植株高度增加20厘米
•在低灌溉条件下,施肥仅能使植株高度增加5厘米
•肥料效应依赖于灌溉水平
•效应并非单纯的累加
使用交互作用图是直观判断数据中是否存在双因素交互作用的绝佳方法。交互作用图的绘制原理是将响应变量的均值与一个因子的水平值绘制在坐标系的X轴上,同时为另一个因子的每个水平分别绘制一条直线。如果这些直线平行,则表明这些因子之间不存在交互作用;如果直线不平行或相互交叉,则表明数据中可能存在这些因子之间的交互作用。
三因素交互作用
三因素交互作用是双因素交互作用的逻辑延伸。在双因素交互作用中,一个因素的影响依赖于第二个因素的水平。而在三因素交互作用中,两个因素之间双因素交互作用的影响则依赖于第三个因素的水平。
示例:
•在酸性pH值下:肥料 × 浇水交互作用较强
•在中性pH值下:肥料 × 浇水交互作用较弱
•在碱性pH条件下:肥料×灌溉交互作用不存在
这种交互作用的结果是:若不考虑 pH 值,就无法完全理解“肥料 × 浇水”的交互作用。若仅观察某个 pH 值水平(或对所有 pH 值水平取平均值)来解读肥料与浇水之间的双因素交互作用,可能会被结果误导。
与双因素交互作用类似,三因素交互作用也可绘制交互图,但操作稍显复杂。此时,需针对第三个因子的每个水平分别绘制交互图。若不同图表中的交互模式存在差异,则可能表明存在三因素交互作用。这种可视化解读已颇具复杂性,通常代表了生物学研究中具有实际意义的分析上限。
在过度关注“显著”的三因素交互作用之前,请先自行核实该交互作用在实验上是否重要或相关。统计学显著性并不自动意味着生物学或实践上的相关性,特别是在样本量较大时,即便是微不足道的交互作用也可能达到统计学显著。
如果某种三因素交互作用在实验或生物学上具有相关性(这只能由您自己判断),那么当该交互作用具有统计学显著性时:
•简单的双因素交互作用可能具有误导性
•考虑分别分析数据子集
•将解读重点放在感兴趣的特异性因子组合上
•咨询统计学家可能会有所帮助
多因素方差分析(ANOVA)需要在Prism中使用“多变量”数据表。该表格格式如下:
•每行代表一个观测值(受试者、样本、实验单位)
•每列代表一个变量
•其中一列包含响应(结果)变量 - 即您要分析的连续测量值
•其余列包含分组变量(因子) - 定义各组的分类变量
示例表格结构:
Plant_ID |
高度 |
肥料 |
浇水 |
光照 |
pH |
|---|---|---|---|---|---|
1 |
45.2 |
有机 |
高 |
全日照 |
中性 |
2 |
38.7 |
无 |
低 |
遮荫 |
酸性 |
3 |
52.1 |
合成 |
中等 |
部分 |
碱性 |
... |
... |
... |
... |
... |
... |
在本示例中:
•响应变量:高度(连续型) - 在不同条件下(由其他变量的数值描述)生长的不同植物(每行一种)的测量高度
•分组变量(因子):肥料、浇水、光照、pH值(均为分类变量)
响应(Y)变量:
•必须为连续型
•本示例:高度、重量、浓度、温度
•应在每个组内呈正态分布(方差分析的假设)
•所有观测值应使用相同的单位
分组变量(因子):
•必须为分类型
•可包含两个或更多水平(组)
•示例:处理组、基因型、时间点(作为类别处理)、地点
•可以是文本或数值,但在数据表中应将变量分类为分类型
•应使用有意义的标签进行明确定义
关于数值因子的说明:若存在剂量(0、10、20、50 毫克)或时间(0、2、4、8 小时)等数值变量,可在方差分析中将其视为因子。为此,必须先将变量类型从连续型更改为分类型。这样操作后,方差分析将忽略数值间的顺序和间隔。 作为替代方案,可考虑直接利用数值信息的多元线性回归。
最低要求:
•每个处理组合(单元格)至少需要 2 个观测值
•建议每个单元格至少有 3-5 个观测值
•每个单元格的观测值越多,检验效应的能力越强
样本量随因素增加呈指数级增长:
•2个因素,每个因素3个水平 = 9个单元格(3 × 3)
•3个因素,每个因素3个水平 = 27个单元格 (3 × 3 × 3)
•4个因素,每个因素3个水平 = 81个单元格 (3 × 3 × 3 × 3)
•5个因子,每个3个水平 = 243个单元格 (3 × 3 × 3 × 3 × 3)
实际意义:若设4个因素(每个3个水平),且每个单元格重复5次,则总共需要405个观测值。这很快就会变得不切实际。
复杂实验设计的策略:
•考虑是否真的需要在一次分析中包含所有因子
•使用分段因子设计(仅检验主效应和选定的交互作用)
•重点关注主要感兴趣的因素;将次要因素单独分析
•针对关键的感兴趣因子组合增加重复次数
•接受高阶交互作用的较低检验力
平衡设计:所有处理组合的样本量相同
•优点:解读更简单、效应估计更清晰、统计检验力最大
•尽可能优先采用
不平衡设计:不同处理组合的样本量各不相同
•常见原因:缺失数据、样本流失、受试者数量不均、观察性数据
•依然有效:多因素方差分析可处理不平衡设计
•注:Prism采用第三类平方和,可恰当处理不平衡设计
•注意:严重不平衡的设计(某些单元格观测值极少)可能会降低检验力并影响结果解读
与所有方差分析方法一样,多因素方差分析基于以下几个假设:
1.独立性:观测值之间必须相互独立。每次测量应来自不同的实验单位。
2.正态性:数据应采样自服从正态分布的总体。
3.方差齐性:所有组应具有相等的方差(方差齐性)
多因素方差分析与多元线性回归均可分析包含多个分类预测因子的数据。然而,这两种分析方法之间存在若干重要差异。
分类变量的编码:
•方差分析(效应编码):将每个组与总体均值进行比较;估计和为零
•回归(虚拟编码/参照编码):将各组与参照组进行比较;其中一组作为基准
参数解读:
•方差分析:相对于所有组平均值的特定组别效应
•回归分析:相对于参考组的特定组别效应
输出格式:
•方差分析(ANOVA):主要输出为方差分析表,包含各因素及交互作用的F检验
•回归分析:主要输出结果为各参数的回归系数及t检验。但在执行多元线性回归时,Prism也会生成方差分析表
多重比较:
•方差分析(ANOVA):集成多重比较检验,并采用家族错误率控制
•回归:需要自定义对比或事后检验(Prism中无法直接/自动提供)
何时使用多因素方差分析:
•您希望检验因子的总体效应
•您希望采用传统的方差分析输出格式
•您计划在组间进行多重比较
•您的合作者或所在领域期望获得方差分析结果
•您更倾向于关注“组平均值”而非“回归系数”
何时使用多元线性回归:
•您希望将各组与特异性的对照组/参考组进行比较
•您拥有分类型和连续型预测因子的混合数据
•您需要回归系数和置信区间
•您需要对模型规格有更多控制权
•您更熟悉回归分析框架
关键点:对于仅含分类型预测因子的平衡设计,方差分析(ANOVA)和回归分析将给出相同的P值和R²值。它们在数学上等价,但呈现结果的方式不同。
多因素方差分析是一种非常强大且实用的工具。但它绝非总是您数据或实验条件下的最佳选择。以下是一些您可能需要在 Prism 中考虑多因素方差分析替代方案的情景:
1.重复测量设计
o问题:目前,Prism中的多因素方差分析不支持重复测量方差分析,且假设所有观测值相互独立
o替代方案:使用专用的重复测量方差分析,或采用单因素方差分析或双因素方差分析的混合模型
2. 有序因子(剂量、时间)
o问题:方差分析将有序类别视为无序,且忽略了水平之间的间隔
o替代方案:考虑改用多元线性回归
3.因子过多
o问题:当因素数量超过5个时,模型会变得复杂且难以解读;需要非常大的样本量才能获得合理的检验力以检测效应
o替代方案:优先考虑关键因素,或考虑使用分段因子设计
4.分层/嵌套结构
o问题:若因子呈嵌套关系(例如:学校内的班级内的学生),标准方差分析(ANOVA)不适用
o替代方案:嵌套方差分析(仅支持嵌套单因素方差分析)