Please enable JavaScript to view this site.

什么是方差分析(ANOVA)?

方差分析(ANOVA)是一种用于比较三个或更多组平均值的统计方法。

普通单因素方差分析(有时也称为单因素ANOVA)适用于以下情况:待比较的组别可由单一分组因素定义,且各组中的数值在其他组中不重复或不匹配。例如,您可能希望将对照组与药物治疗组以及同时接受药物和拮抗剂治疗的组进行比较。 或者,您可能希望比较五个组,每个组接受不同的药物。对于这种检验,您需要从仅被分配到一个组的参与者那里获取测量数据(且这些参与者与其他组的参与者没有任何匹配关系)。 在上述每种情况下,都对数据采样的分布存在特定假设,而 Prism 能够分析来自正态(高斯)分布或对数正态分布的数据。指定分析应采用哪种分布会改变某些值的计算方式,但通常结果的解读是相似的。

为何称为“普通”?这是一个统计学术语,表示数据并非成对或配对的。对成对或配对数据的分析需使用“重复测量方差分析”或“混合模型”方差分析。

为何称为“单因素”?因为数据仅按一种方式(即一个因素)进行分类。在本示例中,该因素为药物治疗。双因素设计则会根据两个分组因素对数据进行分组。例如,可以分别在男性和女性(性别)群体中测试三种药物治疗方案。

为何称为“方差”?方差是量化变异的一种方式。方差分析(ANOVA)通过比较(“分析”)组内变异与组平均值变异来运作。对于从正态分布中抽取的一组数据,其方差等于标准偏差的平方。稍后我们将看到,这等同于数据平方和除以自由度。

方差分析(ANOVA)的工作原理

方差分析通过比较组内变异与组平均值间变异来运作。这些描述同样适用于从正态分布采样的数据和从对数正态分布采样的数据,但有一个注意事项:若要将这些步骤和描述应用于对数正态分布采样的数据,应先对数据进行对数转换。 无需手动执行此转换(无论是在Prism中还是预先处理)。当在分析的实验设计中指定假设对数正态分布时,Prism会在后台自动处理必要的转换。

对数正态性方差分析的区别

解读单因素方差分析需要假设所有值均来自正态(高斯)分布。 从 Prism 10.5 开始,Prism 提供了执行对数正态单因素方差分析的选项。该分析与常见的单因素方差分析相关,但假设所分析的数据采样自对数正态分布而非正态分布。由于对数正态分布中不可能出现零值和负值,因此任何分析数据集中若存在此类值,都将排除执行对数正态方差分析的可能性。

对数正态方差分析的工作原理是首先将所有数值转换为对数。随后,对这些转换后的数据进行方差分析,具体操作完全如本页所述。Prism 会自动执行此转换(您无需在 Prism 或其他应用程序中手动转换数据)。本页后续部分解释的结果,其对数正态方差分析的解读方式与常规方差分析完全一致。 但您必须非常清楚:分析是基于数据的对数进行的!

在作为对数正态方差分析(lognormal ANOVA)的一部分进行多重比较检验时,这些多重比较的结果会被转换回数据的原始量表(同样,此过程也是自动完成的)。Prism 不会在多重比较结果中显示对数均值之间的差异,而是提供几何均值、这些几何均值的比值,以及该比值的 95% 置信区间。

您可通过以下关于该主题的深入综述进一步了解对数正态分布和对数正态方差分析:HJ Motulsky, T Head, PBS Clarke, 2025, 《对数正态数据分析:非数学实用指南》。即将出版。《药理学评论》

 

执行和解读对数正态方差分析的关键要点:

一组值的几何均值等于其对数转换后值的均值

计算两个几何均值的比值,在数学上等同于计算对数转换后几何均值的差

对数正态方差分析的平方和是基于对数转换后的数据(即对数转换后数据的均值)计算的

Prism会自动将分析结果转换回数据的原始量表,因此您无需对结果进行任何其他数据处理

平方和

方差分析的第一步是计算并把数据中的平方和划分为三部分:

1.总平方和。这是每个数据值与其所有数据总体均值之间差值的平方和。有时称为 SST

2.组内平方和。首先计算每个值与其组平均值之间差值的平方和,然后将这些值(所有组)相加。这被称为“列内”平方和,有时也称为误差平方和(SSE)或组内平方和(SSW)

3.组间平方和。对于每个组,计算该组平均值与数据总体均值之间的差值的平方。然后将这些值乘以相应组的样本量。最后将这些值相加。这被称为“列间”平方和,有时也称为回归平方和(SSR)或组间平方和(SSB)

毫不奇怪,组内平方和与组间平方和相加等于总平方和。

另一种理解方式是:组间平方和代表由处理方式引起的变异性,而组内平方和则是不同个体样本中通常会出现的总体变异性。

均方

这些平方和值各自对应着特定的自由度(df,由受试者数量和组数计算得出)。 均方(MS)是通过将每个平方和除以相应的自由度来计算的。这些值可以被视为方差(类似于上述定义中方差是标准偏差的平方)。与平方和不同,组内的均方和组间的均方之和并不等于总均方(总均方很少被计算)。

零假设

要理解 P 值(见下文),首先需要明确零假设。

对于对来自正态分布的数据进行的单因素方差分析,零假设是:样本值的总体均值均相等。此外,该分析还假设这些总体的方差(标准偏差)相等。

对于对来自对数正态分布的数据进行的单因素方差分析,零假设是:样本值的母体均具有相同的几何均值。此外,该分析还假设这些母体的几何标准偏差相等。

F 统计量(F 比)

方差分析的F统计量是组间均方除以组内均方的比值。

若零假设成立,则预期组间方差与组内方差大致相等。换言之,若零假设成立,则预期F统计量接近1.0(即组间方差与组内方差大致相等)。 另一方面,如果组别分配(在本示例中即药物治疗)确实对测量结果产生了影响,那么组间方差预计会大于组内方差。因此,F统计量预计会大于1.0。

P值

P值是根据F比值计算得出的,同时考虑了观测值的数量和组数。

单因素方差分析

回顾一下,单因素方差分析的零假设是:对于从正态分布中抽取的数据,所有总体均值相等。P 值回答了以下问题:

若零假设成立(所有组均采样自均值相同的分布或总体),仅由随机抽样变异性导致,观察到不小于计算值的F比值的概率是多少?

如果总体 P 值较大,数据无法支持您得出这些总体均值存在差异的结论。即使它们相等,仅因偶然因素导致样本均值相差如此之大,您也不会感到意外。这并不等同于说真实均值是相同的。您只是没有令人信服的证据表明它们存在差异。

对于从对数正态分布总体中抽取的数据:如果总体P值很大,数据并不能让您有理由得出总体几何均值不同的结论。即使它们相等,您也不会对仅因偶然性就出现如此极端的样本几何均值比值感到惊讶。这并不等同于说真实几何均值是相等的。您只是没有令人信服的证据表明它们不同。

若总体P值极小:则可推断数据所抽取的总体几何均值不太可能相等。这并不意味着每个均值都与其他所有均值不同,仅表明至少有一个均值可能与其他均值不同。需查阅多重比较后续检验的结果,以确定差异可能出现在何处。

当然,这些结论仅为初步推断,且随机抽样可能导致双向误差。

对数正态单因素方差分析

回顾一下,对数正态性单因素方差分析的零假设是:所有总体几何均值均相等。

P 值回答以下问题:

若零假设成立,仅因随机抽样变异性而观察到不小于计算值的 F 比值的概率是多少?

对于从对数正态分布总体中抽取的数据:如果总体 P 值较大,则数据无法提供任何依据让您得出各总体的几何均值存在差异的结论。即使它们相等,仅凭偶然性就得到如此极端的样本几何均值比值,您也不会感到惊讶。这并不等同于说真实的几何均值是相同的。您只是没有令人信服的证据表明它们存在差异。

如果总体 P 值很小:则可得出结论,数据所抽取的总体几何均值不太可能相等。这并不意味着每个几何均值都与其他所有几何均值不同,它仅表明至少有一个可能与其他不同。请查看多重比较检验的结果,以确定差异可能出现在哪里。

当然,这些结论仅为初步推断,且随机抽样可能导致两种方向的误差。

等方差检验

在分析来自正态分布总体的数据时,方差分析(ANOVA)基于这样一个假设:数据采样的各总体具有相同的方差。由于方差是标准偏差的平方,这等同于说它们具有相同的标准偏差。

对于从对数正态分布总体中抽取的数据,情况则稍显复杂。此时的假设是,对数转换后各总体的标准偏差相等。这相当于说两个总体的几何标准偏差相同,但并不等同于说两个总体的标准偏差相同(两个对数正态分布的总体可能具有相同的几何标准偏差,但标准偏差却不同)。

Prism 通过两种检验来检验这一假设。它会计算布朗-福赛斯检验,并且(如果每个组至少有五个数据点)还会计算巴特利特检验。用户无法选择是否运行这些检验。Prism 会自动执行并始终报告结果。

这两项检验均计算一个 P 值,旨在回答以下问题:

对于从正态总体中抽取的数据:如果总体方差(或标准偏差)确实相等,仅由随机抽样变异性导致,样本方差与观察到的样本方差差异如此之大(或更大)的概率是多少?

对于从对数正态总体中抽取的数据:如果对数转换后的总体方差确实相等(即总体标准偏差相等),那么仅由随机抽样变异性导致,对数转换后的样本方差与您观察到的样本方差差异如此之大(或更大)的概率是多少?

请勿将这些等方差检验P值与检验均值相等的P值混淆。

巴特莱特检验

Prism 报告的是“校正”后的巴特莱特检验结果,具体如 Zar(1) 第 10.6 节所述。如果数据确实来自高斯分布(等效地,如果数据来自对数正态分布且在运行此检验前已进行对数转换;Prism 正是这样做的),巴特莱特检验效果极佳。 但如果分布即使略微偏离这一理想情况,即使方差之间的差异微不足道,巴特利特检验也可能报告一个较小的 P 值。出于这个原因,许多人并不推荐该检验。这就是我们添加布朗-福赛斯检验的原因。它与巴特利特检验的目标相同,但对偏离正态分布的轻微偏差不那么敏感。 我们建议您关注Brown-Forsythe检验的结果,并忽略巴特利特检验(我们保留该检验是为了与 Prism 的旧版本保持一致)。

Brown-Forsythe检验

Brown-Forsythe检验在概念上很简单。数据表中的每个值*都会经过转换:先减去该列的中位数,再取该差值的绝对值。对这些值进行单因素方差分析(ANOVA),并将该方差分析得出的P值作为Brown-Forsythe检验的结果。

其原理是什么?通过减去中位数,各中位数之间的差异已被消除,因此组间唯一的区别仅在于其变异性。

为何要减去中位数而非各组的均值?如果减去的是列均值而非列中位数,该检验则称为莱文等方差检验。哪种方法更好?如果分布并非完全服从高斯分布,则取决于具体分布的性质。 多位统计学家的模拟结果表明,对于许多类型的非高斯数据,使用中位数效果良好。Prism 仅使用中位数(Brown-Forsythe检验),而不使用均值(莱文检验)。

*对于对数正态单因素方差分析,数据首先进行对数转换,然后对这些对数值运行Brown-Forsythe检验和巴特利特检验。

解释结果

如果等方差检验的 P 值较小,您必须决定是认定总体标准偏差(针对正态分布)还是几何标准偏差(针对对数正态分布)存在差异。显然,这些检验仅基于本次实验中的数据。在得出结论前,请综合考虑其他类似实验的数据。

若您得出方差确实不同的结论,您有四种选择:

认定总体不同。 在许多实验情境中,确定分布形状不同(由正态分布的标准偏差和对数正态分布的几何均值决定)与发现分布位置不同(正态分布的均值或对数正态分布的几何均值)同样重要。如果分布形状确实不同,那么无论方差分析(ANOVA)对位置差异得出何种结论,总体都是不同的。这可能是该实验最重要的结论。

请确保您采用了正确的分布假设。如果您的数据采样自对数正态分布,而进行方差分析时假设正态分布,将会得出误导性的结果。对于其他变换(如倒数变换),您可以尝试对数据进行变换以使标准偏差相等,然后重新运行方差分析。

使用不假设方差相等的单因素方差分析(Welch 或 Brown-Forsythe 版本)。

改用非参数的Kruskal-Wallis检验。但此方法存在一个问题:如果各组的标准偏差差异很大,则Kruskal-Wallis检验的结果将难以解释。若标准偏差差异显著,则分布形状差异很大,此时Kruskal-Wallis检验的结果不能被解释为对中位数的比较。

单因素方差分析报告的R²值,表示归因于组平均值差异的总体方差(即合并所有组的数据)所占的比例。它比较了组间平均值的变异性与组内变异性。该值越大,表明变异中由划分组别的处理因素所占的比例越大。 R²值通过方差分析表计算得出,等于组间平方和除以总平方和。具体而言,对于普通单因素方差分析,该值等同于η²(η平方),并量化了组别归属与所测变量之间的关系强度。

标准效应量

本节所述的功能仅适用于我们的全新 Pro 和 Enterprise 订阅。了解更多...

Prism 会为方差分析结果报告标准效应量,包括 η²、偏 η²(η)和 Cohen's f。由于这些效应量适用于多种方差分析设计(单因素方差分析、双因素方差分析、三因素方差分析及多因素方差分析; 常规和重复测量设计),关于这些效应量如何计算和解读的详细信息,请参阅专门的“理解方差分析效应量”页面。

多重比较检验

对许多科学家而言,多重比较检验的结果比总体方差分析结果更为重要。请阅读关于在 Prism 中进行单因素方差分析后的多重比较检验的相关内容。

参考文献

J.H. Zar,《生物统计学分析》,2010年第五版,ISBN:0131008463。