Please enable JavaScript to view this site.

t检验假设方差相等

标准的非配对t检验(但 Welch t 检验除外)假设两组数据集分别来自具有相同标准偏差(因此方差相同)的总体,即使它们的均值不同。

检验两组数据是否来自方差相等的总体

作为 t 检验分析的一部分,Prism 通过 F 检验比较两组的方差来检验这一假设。请注意,Prism 和 InStat 非常早期的版本中存在一个错误,导致 F 检验的 P 值被低估了一半。

请勿将检验组间标准偏差相等的 P 值与检验均值相等的 P 值混淆。后者才是您在选择 t 检验或单因素方差分析时,最可能在思考的问题的答案。而检验方差相等的 P 值回答的是以下问题:

如果总体方差(或标准偏差)确实相等,仅由随机抽样变异性导致,样本方差出现与您观察到的样本方差同样大(或更大)差异的概率是多少?

若方差不同该如何处理

如果 P 值较小,则拒绝零假设,即两组样本均来自标准偏差(即方差)相同的总体。

接下来呢?有五种可能的结论。

得出总体不同的结论。在许多实验情境中,发现标准偏差不同与发现均值不同同样重要。如果标准偏差不同,那么无论t检验对均值差异得出何种结论,总体都是不同的。在将这种差异视为需要规避的问题之前,请思考它向您揭示了关于数据什么信息。这可能是实验得出的最重要结论! 还需考虑标准偏差较大的组是否存在异质性。如果对该组施加了某种干预措施,或许它仅对约一半的受试者有效。

对数据进行变换。在许多情况下,数据变换可以使标准偏差趋于一致。如果有效,即可对变换后的结果进行t检验。对数变换尤为有效。(参见《直观生物统计学》第46章中的示例)。 当数据采样自对数正态分布时,对数转换是合适的。在其他情况下,倒数或平方根转换可能更有效。当然,理想情况下,这种转换本应作为实验设计的一部分进行规划。

忽略这一结果。当样本量相等或接近相等(且样本量适中)时,标准偏差相等的假设并非关键假设。即使标准偏差不齐,t检验也能表现得相当不错。换言之,只要样本量不微小且各组样本量差距不大,t检验对该假设的违背具有鲁棒性。 如果您想使用常规的t检验,请使用实际的样本量和预期的方差差进行一些模拟,以查看t检验结果与真实情况的偏差程度。

请返回并重新运行 t 检验,勾选允许方差不齐的 Welch t 检验选项。虽然这听起来合乎常理,但 Moser 和 Stevens (1) 已证明事实并非如此。 若使用F检验比较方差以决定采用常规t检验还是Welch t检验,将增加Ⅰ类错误的风险。即使总体完全相同,仍有超过5%的概率会得出总体不同的结论。Hayes和Cai得出了相同的结论(2)。Welch检验必须作为实验设计的一部分予以明确指定。

使用置换检验。目前没有GraphPad软件提供此类检验。其原理是将观察值视为既定事实,并考察这些值在两组中的分布情况。在保持原始样本量不变的前提下,将两组数据随机互换。 在这些打乱后的数据集中,有多少比例的样本组均值差与观察到的差值相等(或更大)。这就是 P 值。当总体标准偏差不同时,该检验仍能产生相当准确的 P 值(Good,下文参考文献,第 55 页)。这些检验的缺点是无法直接得出置信区间。更多详情请参阅维基百科Hyperstat。  

那么,改用非参数的Mann-Whitney检验又如何?乍看之下,这似乎是解决标准偏差不一致问题的良策。但事实并非如此!Mann-Whitney检验检测的是秩分布是否不同。如果您已知标准偏差不同,那么您已经知道这两个分布是不同的。 您可能还想知道的是均值或中位数是否不同。但当各组分布不同时,非参数检验并不检验中位数是否存在差异。这是一个常见的误解。

如何避免该问题

上述解决方案都不尽如人意。最好还是从源头避免这个问题。

避免该问题的一种方法是清晰地思考数据的分布,并在常规数据处理过程中对数据进行转换。若知晓某系统生成的数据呈对数正态分布,则始终对数据取对数后进行分析。

另一种解决方案是始终使用方差不齐(Welch)t检验。如前所述,先检验标准偏差是否相等,再以此结果作为决定使用普通t检验还是修正(方差不齐,Welch)t检验的依据,并非明智之举。但始终使用修正检验是否合理?Ruxton有力地论证了这是最佳做法(3)。 Delacre(4)也持同样观点。当标准偏差实际上相等时,检验力会有所降低,但在标准偏差不相等的情况下,检验力会得到提升。

Welch t检验基于一套奇怪的假设。两个总体均值相同但标准偏差不同意味着什么?为什么要检验这种情况?Swailowsky指出,这种情况在科学研究中其实很少出现(5)。 我更倾向于将异方差t检验视为构建置信区间的手段。您的首要目标并非探究两个总体是否存在差异,而是量化两个均值之间的距离。异方差t检验给出了两个均值差的置信区间,即使标准偏差不同,该置信区间依然有效。

参考文献

1. Moser, B.K. 和 G.R. Stevens. 《两样本均值检验中的方差齐性》,《美国统计学家》,1992;46(1):19-22.

2. Hayes 和 Cai. 《进一步评估比较两个独立均值的条件决策规则》,《英国数学统计心理学杂志》(2007)

3. Ruxton. 不等方差t检验是斯蒂德t检验和Mann-Whitney检验的一种被低估的替代方案。《行为生态学》(2006)第17卷(4期)第688页

4. Delacre, M., Lakens, D.L., 和 Leys, C. (2017). 心理学家为何应默认使用韦尔奇 t 检验而非 Student t 检验. Rips 30: 92–10.

5. S.S. Sawilowsky. 费马、舒伯特、爱因斯坦与贝伦斯-费希尔:方差不同的两个均值之间的可能差异。《现代应用统计方法杂志》(2002)第1卷,第461–472页

6. P.I. Good 和 J.W. Hardin,《统计学中的常见错误:(以及如何避免它们)》,2003年,ISBN:0471460680。