Please enable JavaScript to view this site.

非配对检验的两种方法

当您选择使用 t 检验比较两个非配对组的均值(或几何均值)时,有两种选择:

使用标准的非配对检验。该方法假设两组数据均采样自方差(标准偏差或几何标准偏差)相同的总体分布。

使用方差不齐检验,也称为Welch检验。该检验不假设数据采样自具有相同方差(标准偏差或几何标准偏差)的总体。

一个看似奇怪的零假设,但却是实用的检验

要解读任何 P 值,必须仔细定义零假设。对于 Welch(不等方差)t 检验,零假设是两个总体具有相同的均值(对于采样自正态分布的数据)或几何均值(对于采样自对数正态分布的数据)。然而,这两个总体的方差可能不同。

若 P 值较大,则不拒绝零假设。换言之,尽管您假设两个总体可能具有不同的标准偏差,但现有证据并不能说服您认为这两个总体的均值(或几何均值)存在差异。这真是一套奇怪的假设。 两个总体均值相等但标准偏差不同意味着什么?为什么要检验这种情况?虽然这种情形在科学中可能并不常见(1),但仍有充分理由考虑使用韦尔奇检验。

除非有充分理由使用等方差检验,否则建议将韦尔奇检验作为默认检验方法。为什么?当被抽样总体方差确实相等时,韦尔奇检验的表现几乎与等效的等方差检验一样好(与等方差检验相比,韦尔奇检验的检验力损失极小)。 然而,当被抽样总体的方差确实不同时,Welch检验的表现要好得多,与等方差检验相比,它具有更高的检验力,并保持了适当的Ⅰ类错误率(α)。

不等方差 t 检验的计算方法

Welch检验和等方差检验均会报告P值和置信区间。两者的计算方法在两方面存在差异:

均值差的标准误差计算

t 比值的计算首先需确定两个样本均值的差(针对来自正态分布的数据),或两个样本几何均值对数的差(针对来自对数正态分布的数据)。随后将该值除以差值的标准误差。该标准误差由两组的方差和样本量计算得出。 当两组样本量相同时,这两种 t 检验的标准误差是相同的。但当两组样本量不同时,Welch t 检验的 t 比值与普通 t 检验的不同。该差值的标准误差还用于计算两个均值差的置信区间。

自由度的计算

对于方差相等的非配对t检验,自由度 (df) 的计算方法是总样本量(两组之和)减去二。 Welch t检验的自由度(df)通过一个复杂的公式计算,该公式考虑了两个方差之间的差异。如果两个样本的方差相同,Welch t检验的自由度将与标准t检验的自由度相同。但在大多数情况下,两个方差并不相同,Welch t检验的自由度将小于非配对t检验的自由度。 该计算通常会得出一个非整数的自由度值。Prism 软件会报告并使用这个小数形式的自由度值。许多程序(包括 Prism 5、InStat 以及我们的 QuickCalc)都会将自由度向下舍入至最接近的整数。因此,Prism 报告的 P 值可能会比其他程序报告的 P 值略小。

何时选择不等方差(Welch)t检验

决定何时使用不等方差 t 检验并非易事。

看似合理的做法是先检验方差是否不同,然后据此选择普通 t 检验或 Welch t 检验。实际上,这并非良策。您应在实验设计阶段就决定采用该检验。

那么,是否应该始终选择Welch检验呢?Ruxton (2) 和 Delacre (3) 提出了强有力的论据,认为这是一个好主意。当标准偏差实际上相等时,检验力会有所降低,但在标准偏差不相等的情况下,检验力会得到提升。

参考文献

1. S.S. Sawilowsky. 费马、舒伯特、爱因斯坦与贝伦斯-费希尔:方差不同的两个均值之间的概率差异。《现代应用统计方法杂志》(2002)第1卷,第461-472页

2. Ruxton. 不等方差t检验是斯蒂尤特t检验和Mann-Whitney检验的一种被低估的替代方案。《行为生态学》(2006)第17卷(4期)第688页

3. Delacre, M., Lakens, D.L., and Leys, C. (2017). 为何心理学家应默认使用韦尔奇 t 检验而非 Student t 检验。《Rips》30: 92–10.