Please enable JavaScript to view this site.

什么是方差分析?

方差分析Analysis Of VAriance,ANOVA)是一种统计技术,用于比较三个或更多组的平均值。

普通单向方差分析(有时也称为单因素方差分析)适用于被比较组可以由单一分组因素定义,且每组中的值在其他组中不重复或不匹配的情况。本示例中,您可能想比较一个对照组和一个药物治疗组,以及一个药物和拮抗剂治疗组。或者,您可能想比较五组,每组服用不同的药物。在这种测试中,您将对只被分配到一个组的参与者(与其他组的参与者没有任何匹配组)进行测量。对于上述每种情况,都需要假设数据的采样分布,而 Prism 能够分析从正态分布(高斯分布)或对数正态分布采样的数据。指定分析应假设哪种分布会改变某些值的计算方式,但通常对结果的解释是相似的。

为什么是 "普通"?这是一个统计术语,意思是数据没有配对或匹配。配对或匹配数据的分析使用 "重复测量"或 "混合模型"方差分析。

为什么是 "单向"?因为数值是以一种方式或一个因素分类的。在本示例中,因素是药物治疗。双向设计将按两个分组因子对数值进行分组。本示例中,三种治疗方法(药物治疗)中的每一种都可以在男性和女性(性别)中进行测试。

为什么是 "方差"?方差是量化变异的一种方法。方差分析通过比较("分析")组内的变异和组平均值之间的变异来发挥作用。对于从正态分布中采样的单组数值,方差是标准偏差的平方。稍后,我们将看到它等于各值的平方和除以自由度。

方差分析的工作原理

方差分析是通过比较组内变异和组平均值之间的变异来工作的。这些说明同样适用于从正态分布和对数正态分布中采样的数据,但有一点需要注意:要将这些步骤和说明应用于从对数正态分布中采样的数据,应首先对数据进行对数变换。无需手动(在 Prism 中或事前)进行转换。只要在分析的实验设计中指明假设采用对数正态分布,Prism 就会在幕后处理必要的转换。

对数正态性方差分析的不同之处

解读单向方差分析需要假设所有值都是从正态(高斯)分布中采样的。从 Prism 10.5 开始,Prism 提供了执行对数正态性单向方差分析的选项。这种分析与常见的单向方差分析相关,但假设分析的数据是从对数正态分布而非正态分布中采样的。由于对数正态分布中不可能出现零值和负值,因此在任何分析数据集中出现这些值都排除了进行对数正态性方差分析的可能性。

对数正态性方差分析首先将所有数值转换为对数。然后按照本页的描述,对转换后的数据进行方差分析。Prism 会自动执行这种转换(无需在 Prism 或其他应用程序中转换数据)。对数正态性单向方差分析的解释结果与普通单向方差分析的解释结果相同。但是您应该非常清楚,分析是根据数据的对数进行的!

在进行多重比较检验作为对数正态性方差分析的一部分时,这些多重比较的结果会被转回数据的原始标度(同样,这也是自动完成的)。作为多重比较结果的一部分,Prism 不再显示对数均值之间的差异,而是提供几何均值、这些几何均值的比值以及比值的 95% 置信区间。

关于对数正态分布和对数正态方差分析,您可以从这一主题的深入评论中了解更多:HJ Motulsky, T Head, PBS Clarke, 2025,Analyzing Lognormal Data:非数学实用指南》。出版中。药理学评论

 

执行和解读对数正态性方差分析的要点:

一组数值的几何均值等于对数变换后数值的均值

计算两个几何均值之比在数学上等同于计算对数变换几何均值之差

对数正态性方差分析的平方和使用对数变换后的数据(因此也是对数变换后数据的均值)进行计算

Prism 会自动将分析结果转换回数据的原始比例,因此无需对结果进行任何其他数据处理。

平方和

方差分析的第一步是计算数据中的平方和,并将其分为三部分:

1.总平方和。这是每个数值与所有数据的均方值之间的平方差之和。有时也称为 SST

2.组内平方和。首先计算每个数值与其所在组平均值之间的平方差之和。然后求出这些值(所有组)的总和。这被称为 "列内"平方和,有时也称为平方误差总和 (SSE) 或组内平方和 (SSW)

3.组间平方和。对于每个组,计算组平均值与数据总平均值之差的平方。然后用这些值乘以相应组别的样本量。然后将这些值相加。这被称为 "列间"平方和,有时也称为回归平方和(SSR)或列间平方和(SSB)。

毫不奇怪,组内平方和与组间平方和相加等于总平方和。

另一种思考方式是,组间平方和代表治疗引起的变异性,而组内平方和则是您期望在不同个体样本中看到的一般变异性。

均方差

每个平方和值都与一定的自由度(df,由受试者人数和组数计算得出)相关联。均方差(MS)的计算方法是用每个平方和除以相关的自由度。这些值可以看作是方差(类似于上面的定义,方差是标准偏差的平方)。与平方和值不同的是,组内均方值和组间均方值加起来并不等于总均方值(很少计算)。

零假设

要理解 P 值(见下文),首先需要阐明零假设。

对于从正态分布中取样的数据进行单向方差分析,零假设是取样值所在的群体都具有相同的均值。此外,分析还假设这些群体的方差(标准偏差)相等。

对于从对数正态分布中取样的数据进行的单向方差分析,零假设是取样值所在的群体都具有相同的几何均值。此外,分析假设这些群体的几何标准偏差相等。

F 统计比率

方差分析的 F 统计比率是组间平均值平方除以组内平均值平方的比率。

如果零假设成立,您会期望组间方差与组内方差大致相同。另一种说法是,如果零假设成立,你会期望 F 统计量接近 1.0(组间方差与组内方差大致相同)。另一方面,如果组别分配(本示例中为药物治疗)确实对测量结果有影响,那么组间方差就会大于组内方差。因此,F 统计量将大于 1.0。

P 值

P 值是根据 F 比值确定的,同时考虑到值的数量和组的数量。

单向方差分析

回顾一下,单向方差分析的零假设是:对于从正态分布中抽样的数据,所有群体均值相同。P 值回答了以下问题:

如果零假设成立(所有组都是从具有相同平均值的分布或群体中采样),那么仅由于随机抽样变异性,观察到 F 比率与您计算的一样大或更大的概率是多少?

如果总体 P 值很大,那么这些数据并不能让您得出这些群体的均值不同的结论。即使它们相等,你也不会对偶然发现样本均值相差如此之远感到惊讶。这并不等于说真正的平均数是相同的。你只是没有令人信服的证据证明它们是不同的。

对于对数正态分布的样本数据:如果总体 P 值很大,那么这些数据并不能让你有任何理由得出结论说这两个群体的几何均值不同。即使它们相等,你也不会对偶然发现样本几何均值的比值如此极端而感到惊讶。这并不等于说真正的几何均值是相同的。你只是没有令人信服的证据证明它们是不同的。

如果总体 P 值很小:你就会得出结论,从这些数据中抽取的总体均值不太可能相等。这并不意味着每个均值都与其他均值不同。它只表明至少有一个均值可能与其他均值不同。查看多重比较后续检验的结果,以确定差异可能在哪里。

当然,这些结论都是暂时的,随机抽样可能会导致两个方向的误差。

对数正态性单向方差分析

回顾一下,对数正态性单向方差分析的零假设是:所有种群几何均值都相同。

P 值回答了以下问题:

如果零假设成立,那么仅仅由于随机抽样变异性,观察到 F 比率与您计算的一样大或更大的概率是多少?

对于从对数正态分布种群中抽取的数据:如果总体 P 值很大,那么数据并不能让您得出种群几何均值不同的结论。即使它们相等,你也不会对偶然发现比率如此极端的样本几何均值感到惊讶。这并不等于说真正的几何均值是相同的。你只是没有令人信服的证据证明它们是不同的。

如果总体 P 值很小:你就会得出结论:数据取样群体的几何均值不太可能相等。这并不意味着每个几何均值都与其他几何均值不同。它只是表明,至少有一个几何平均数可能与其他几何平均数不同。查看多重比较跟进检验的结果,找出可能存在差异的地方。

当然,这些结论都是暂时的,随机抽样可能会导致两个方向的误差。

等方差检验

在分析从正态分布群体中抽取的数据时,方差分析所依据的假设是:抽取数据的群体具有相同的方差。这相当于说它们具有相同的标准偏差,因为方差是标准偏差的平方。

对于从对数正态性分布的群体中采样的数据,情况要复杂一些。在这种情况下,假设对数变换后的群体方差相等。这相当于说两个种群的几何标准偏差相同,但不等于说两个种群的方差相同(两个对数正态分布的种群可以有相同的几何标准偏差和不同的方差)。

Prism 通过两个测试来检验这一假设。它可以计算 Brown-Forsythe 检验,也可以(如果每组至少有五个检验值)计算 Bartlett 检验。没有关于是否游程检验的选项。Prism 会自动执行并始终报告结果。

这两种检验都计算 P 值,旨在回答以下问题:

对于从正常群体中采样的数据:如果种群确实具有相同的方差(或标准偏差),那么仅由于随机抽样的变异性,样本方差与您在样本中观察到的方差一样不相同(或更不相同)的概率是多少?

对数正态性样本数据:如果对数变换后的种群真的具有相同的方差(如果种群具有相同的几何标准偏差),那么由于随机抽样变异性,对数变换后样本的方差与您在样本中观察到的方差一样不相同(或更不相同)的概率是多少?

不要把这些检验等方差检验的 P 值与检验均值相等的 P 值混为一谈。

巴特利特检验

Prism 报告 "校正"巴特利特检验的结果,如 Zar(1) 第 10.6 节所述。如果数据确实是从高斯分布中采样的,巴特利特检验就会非常有效(等同于数据是从对数正态分布中采样的,并在运行此检验前进行了对数变换;Prism 就是这样做的)。但是,如果数据分布稍有偏离,巴特检验值就会偏小,即使方差之间的差异微不足道。因此,很多人不推荐使用该检验。这就是我们增加布朗和福赛检验的原因。 它与巴特利特检验的目标相同,但对正态性的微小偏差不那么敏感。我们建议您关注布朗-福赛检验的结果,而忽略巴特利特检验(为了与 Prism 以前的版本保持一致,我们保留了巴特利特检验)。

布朗-福尔赛检验

布朗-福尔赛检验在概念上很简单。通过从数据表中减去该列的中位数,然后取该差值的绝对值,对数据表中的每个值*进行转换。对这些值进行单向方差分析,并将方差分析得出的 P 值报告为布朗-福尔赛检验的结果。

它是如何工作的?通过减去中位数,中位数之间的任何差异都被减去了,因此组间唯一的区别就是它们的变异性。

为什么要减去中位数而不是每组的平均值? 如果减去的是列平均数而不是列中位数,那么检验就叫做等方差检验(Levene test)。哪个更好?如果分布不完全是高斯分布,那就要依赖度是什么分布了。几组统计学家的模拟结果表明,使用中位数对许多类型的非高斯数据都很有效。Prism 只使用中位数(Brown-Forsythe),而不使用平均数(Levene)。

*对于对数正态性单向方差分析,首先对数值进行对数变换,然后对这些对数进行布朗-福赛检验和巴特利特检验。

解释结果

如果等方差检验的 P 值较小,则必须选择是否得出结论认为两个种群的标准偏差(对数正态分布)或几何标准偏差(对数正态分布)不同。显然,这些检验值只基于这一个实验中的值。在下结论之前,请考虑一下其他类似实验的数据。

如果您认为方差确实不同,您有四个选择:

得出种群不同的结论。在许多实验中,确定分布具有不同的形状(由正态分布的标准偏差和对数正态分布的几何标准偏差决定)与发现它们具有不同的位置(正态分布的均值或对数正态分布的几何均值)同样重要。如果分布的形状确实不同,那么无论方差分析得出的位置差异结论如何,种群都是不同的。这可能是实验中最重要的结论。

确保使用了适当的分布假设。如果您的数据是从对数正态分布中采样的,那么假定其为正态分布进行方差分析将会得到误导性的结果。对于其他变换(如倒数),您可以尝试变换数据以均衡标准偏差,然后重新运行方差分析。

使用不假定等方差的 Welch 或 Brown-Forsythe 版本的单向方差分析。

改用非参数 Kruskal-Wallis 检验。这样做的问题是,如果你的各组标准偏差相差很大,就很难解释 Kruskal-Wallis 检验的结果。如果标准偏差相差很大,那么分布形状就会大不相同,Kruskal-Wallis 结果就不能被解读为比较中位数。

R 平方

R2是各组平均值之间的差异在总体方差(所有数据,汇集所有组)中所占的比例。它将组平均值之间的变异性与组内变异性进行比较。数值越大,说明很大一部分变异是由界定各组的处理造成的。R2值由方差分析分组表计算得出,等于组间平方和除以总平方和。有些程序(和书籍)不需要报告这个值。其他程序则将其称为η2(等方差),而不是R2。它是一种描述性统计量,用于量化组员身份与所测变异性之间关系的强度。

多重比较检验

对于许多科学家来说,多重比较检验的结果比方差分析的总体结果更为重要。请阅读 Prism 中单向方差分析后的多重比较检验。

参考文献

J.H. Zar,《生物统计分析》,2010 年第五版,ISBN:0131008463。

© 1995-2019 GraphPad Software, LLC. All rights reserved.