GraphPad Prism 11 Statistics Guide - 当两组标准差不同时该怎么办？

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: 使用 PRISM 进行统计分析 11 > t 检验、Mann-Whitney 检验与 Wilcoxon 配对检验 > 非配对 t 检验与对数正态 t 检验

当两组标准差不同时该怎么办？

Scroll Prev Top Next More

t检验假设方差相等

标准的非配对t检验（但 Welch t 检验除外）假设两组数据集分别来自具有相同标准偏差（因此方差相同）的总体，即使它们的均值不同。

检验两组数据是否来自方差相等的总体

作为 t 检验分析的一部分，Prism 通过 F 检验比较两组的方差来检验这一假设。请注意，Prism 和 InStat 非常早期的版本中存在一个错误，导致 F 检验的 P 值被低估了一半。

请勿将检验组间标准偏差相等的 P 值与检验均值相等的 P 值混淆。后者才是您在选择 t 检验或单因素方差分析时，最可能在思考的问题的答案。而检验方差相等的 P 值回答的是以下问题：

如果总体方差（或标准偏差）确实相等，仅由随机抽样变异性导致，样本方差出现与您观察到的样本方差同样大（或更大）差异的概率是多少？

若方差不同该如何处理

如果 P 值较小，则拒绝零假设，即两组样本均来自标准偏差（即方差）相同的总体。

接下来呢？有五种可能的结论。

•得出总体不同的结论。在许多实验情境中，发现标准偏差不同与发现均值不同同样重要。如果标准偏差不同，那么无论t检验对均值差异得出何种结论，总体都是不同的。在将这种差异视为需要规避的问题之前，请思考它向您揭示了关于数据什么信息。这可能是实验得出的最重要结论！还需考虑标准偏差较大的组是否存在异质性。如果对该组施加了某种干预措施，或许它仅对约一半的受试者有效。

•对数据进行变换。在许多情况下，数据变换可以使标准偏差趋于一致。如果有效，即可对变换后的结果进行t检验。对数变换尤为有效。（参见《直观生物统计学》第46章中的示例）。当数据采样自对数正态分布时，对数转换是合适的。在其他情况下，倒数或平方根转换可能更有效。当然，理想情况下，这种转换本应作为实验设计的一部分进行规划。

•忽略这一结果。当样本量相等或接近相等（且样本量适中）时，标准偏差相等的假设并非关键假设。即使标准偏差不齐，t检验也能表现得相当不错。换言之，只要样本量不微小且各组样本量差距不大，t检验对该假设的违背具有鲁棒性。如果您想使用常规的t检验，请使用实际的样本量和预期的方差差进行一些模拟，以查看t检验结果与真实情况的偏差程度。

•请返回并重新运行 t 检验，勾选允许方差不齐的 Welch t 检验选项。虽然这听起来合乎常理，但 Moser 和 Stevens (1) 已证明事实并非如此。若使用F检验比较方差以决定采用常规t检验还是Welch t检验，将增加Ⅰ类错误的风险。即使总体完全相同，仍有超过5%的概率会得出总体不同的结论。Hayes和Cai得出了相同的结论（2）。Welch检验必须作为实验设计的一部分予以明确指定。

•使用置换检验。目前没有GraphPad软件提供此类检验。其原理是将观察值视为既定事实，并考察这些值在两组中的分布情况。在保持原始样本量不变的前提下，将两组数据随机互换。在这些打乱后的数据集中，有多少比例的样本组均值差与观察到的差值相等（或更大）。这就是 P 值。当总体标准偏差不同时，该检验仍能产生相当准确的 P 值（Good，下文参考文献，第 55 页）。这些检验的缺点是无法直接得出置信区间。更多详情请参阅维基百科或 Hyperstat。

那么，改用非参数的Mann-Whitney检验又如何？乍看之下，这似乎是解决标准偏差不一致问题的良策。但事实并非如此！Mann-Whitney检验检测的是秩分布是否不同。如果您已知标准偏差不同，那么您已经知道这两个分布是不同的。您可能还想知道的是均值或中位数是否不同。但当各组分布不同时，非参数检验并不检验中位数是否存在差异。这是一个常见的误解。

如何避免该问题

上述解决方案都不尽如人意。最好还是从源头避免这个问题。

避免该问题的一种方法是清晰地思考数据的分布，并在常规数据处理过程中对数据进行转换。若知晓某系统生成的数据呈对数正态分布，则始终对数据取对数后进行分析。

另一种解决方案是始终使用方差不齐（Welch）t检验。如前所述，先检验标准偏差是否相等，再以此结果作为决定使用普通t检验还是修正（方差不齐，Welch）t检验的依据，并非明智之举。但始终使用修正检验是否合理？Ruxton有力地论证了这是最佳做法（3）。 Delacre（4）也持同样观点。当标准偏差实际上相等时，检验力会有所降低，但在标准偏差不相等的情况下，检验力会得到提升。

Welch t检验基于一套奇怪的假设。两个总体均值相同但标准偏差不同意味着什么？为什么要检验这种情况？Swailowsky指出，这种情况在科学研究中其实很少出现（5）。我更倾向于将异方差t检验视为构建置信区间的手段。您的首要目标并非探究两个总体是否存在差异，而是量化两个均值之间的距离。异方差t检验给出了两个均值差的置信区间，即使标准偏差不同，该置信区间依然有效。

参考文献

1. Moser, B.K. 和 G.R. Stevens. 《两样本均值检验中的方差齐性》，《美国统计学家》，1992;46(1):19-22.

2. Hayes 和 Cai. 《进一步评估比较两个独立均值的条件决策规则》，《英国数学统计心理学杂志》（2007）

3. Ruxton. 不等方差t检验是斯蒂德t检验和Mann-Whitney检验的一种被低估的替代方案。《行为生态学》（2006）第17卷（4期）第688页

4. Delacre, M., Lakens, D.L., 和 Leys, C. (2017). 心理学家为何应默认使用韦尔奇 t 检验而非 Student t 检验. Rips 30: 92–10.

5. S.S. Sawilowsky. 费马、舒伯特、爱因斯坦与贝伦斯-费希尔：方差不同的两个均值之间的可能差异。《现代应用统计方法杂志》（2002）第1卷，第461–472页

6. P.I. Good 和 J.W. Hardin，《统计学中的常见错误：（以及如何避免它们）》，2003年，ISBN:0471460680。

Please enable JavaScript to view this site.

t检验假设方差相等

检验两组数据是否来自方差相等的总体

若方差不同该如何处理

如何避免该问题

参考文献