Please enable JavaScript to view this site.

工作原理

Mann-Whitney检验(也称为Wilcoxon秩和检验)是一种用于比较两个非配对组别的非参数检验。在执行Mann-Whitney检验时,Prism 首先将所有数值按从小到大的顺序进行排序,且不考虑每个数值所属的组别。最小数值被赋予第 1 位,最大数值被赋予第 n 位,其中 n 表示两个组别中数值的总数。 随后,Prism 计算每个组中排名的平均值,并报告这两个平均值。如果两个组中排名平均值差异显著,则 P 值将较小。

P值

在了解所检验的零假设之前,无法对 P 值进行解读。对于Mann-Whitney检验,零假设有些难以理解。零假设是两个组的分布完全相同,因此从一个总体中随机选取的观测值超过另一个总体中随机选取的观测值的概率为 50%。

P值回答了以下问题:

如果两组样本分别来自分布相同的总体,那么随机抽样导致平均秩差达到(或超过)本实验中观察到的程度,其概率是多少?

在大多数情况下(包括存在并列的情况),Prism 会计算精确P值(2)。如果样本量较大(较小组的数据值超过 100 个),它会通过高斯近似法近似P值。这里所说的“高斯”是指秩和的分布,并不意味着您的数据必须服从高斯分布。 对于大样本,这种近似法非常精确,且是标准做法(所有统计软件均采用)。

请注意,Prism 计算精确P值的速度远快于旧版本,因此对于 Prism 5 原本会采用近似方法的中等规模数据集,它也会直接计算精确P值。当最小样本量小于或等于 100 时,它计算精确P值;否则计算近似P值(对于如此大的样本,该近似结果非常精确)。

若 P 值较小,则可拒绝“差异源于随机抽样”的零假设,进而得出两个总体不同的结论。

若 P 值较大,则数据无法提供任何支持拒绝零假设的依据。但这并不等同于说两个总体是相同的。 您只是没有令人信服的证据表明它们存在差异。如果样本量较小,Mann-Whitney检验的检验力很弱。事实上,如果总样本量为七或更少,无论组间差异有多大,Mann-Whitney检验给出的P值总是大于0.05。

曼-惠特尼 U 值与 U' 值

Prism 会报告曼-惠特尼 U 值,以便您与其他程序或教材的计算结果进行比对。要计算 U 值,请从 A 组中选取一个数值,再从 B 组中选取一个数值。记录哪个组的数值更大。对两组中的所有数值重复此操作。  统计A组数值大于B组的情况次数,以及B组数值大于A组的情况次数。这两个数值中较小的那个即为U,较大的那个即为U'(见下文)。

计算U值时,比较次数等于A组数据个数与B组数据个数的乘积。若零假设成立,则U值应约为该乘积的一半。若U值远小于该数值,则P值将较小。U值的最小可能值为零,最大可能值为A组数据个数与B组数据个数乘积的一半。

某些软件还会报告 U',但 Prism 不会。U' 可通过公式 n1*n2 - U 轻松计算,其中 n1 和 n2 分别表示两个样本的样本量,U 由 Prism 报告。Prism 将 U 定义为两个值中的较小者,因此 U' 即为较大者。部分软件根据数据集的输入顺序定义 U 和 U',因此在某些分析中可能会颠倒 U 和 U' 的定义。

中位数与其置信区间的区别

Mann-Whitney检验(Mann-Whitney检验)比较两个组别中秩的分布。若假设两个总体具有形状相同的分布(不一定是高斯分布),则可将其视为两个中位数的比较。请注意,若不作此假设,Mann-Whitney检验将不会比较中位数。

只有当您勾选“比较中位数”复选框(位于“选项”标签页)时,Prism 才会报告中位数之间的差异。它通过两种方式报告该差异。一种是显而易见的方式 - 即用一个组的中位数减去另一个组的中位数。另一种是计算霍奇斯-莱曼估计量 (4)。Prism 会系统地计算第一组中每个值与第二组中每个值之间的差值。 霍奇斯-莱曼估计值即为这组差值的 median。

Prism 采用 Sheskin (1) 第 521-524 页及 Klotz (3) 第 312-313 页所述的方法计算该差异的置信区间。该方法基于 Hodges-Lehmann 方法。

由于非参数检验基于秩,通常无法获得精确为 95% 的置信区间。Prism 会寻找一个接近的置信水平,并报告该数值。 例如,当您要求计算95%置信区间时,可能得到的是96.2%的置信区间。Prism会报告其实际采用的置信水平,该水平尽可能接近您要求的水平。在报告置信区间时,您可以选择报告精确的置信水平(“96.2%”),或者仅报告您要求的置信水平(“95%”)。我认为后者更为常用。

当较小样本的值不超过 100 个时,Prism 会计算精确置信区间;否则则计算近似置信区间。对于如此大规模的样本,这种近似计算结果相当准确。

Mann-Whitney检验中的重复值

Mann-Whitney检验是为连续尺度数据设计的。因此,您通常期望每个测量值都是唯一的。但偶尔会出现两个或多个值相等的情况。当Mann-Whitney检验计算将数值转换为秩时,这些值将并列同一秩,因此它们都被赋予其并列的两个(或多个)秩的平均值。

Prism 在计算 U 值(或秩和;二者等价)时,采用标准方法对并列情况进行校正。

遗憾的是,当存在并列情况时,尚无标准方法可从这些统计量中得出 P 值。当较小样本的值数为 100 个或更少时,即使存在并列,Prism 仍会计算精确 P 值(2)。它会列出将数据洗牌成两个实际使用样本量的组的所有可能方式,并计算在这些洗牌数据集中,均值秩差值大于或等于实际观察值的占比。 当样本量较大(较小组包含超过 100 个数据值)时,Prism 采用近似方法:将 U 值或秩和转换为 Z 值,然后在高斯分布表中查得该 Z 值对应的 P 值。

为何 Prism 6 及后续版本的报告结果与早期版本不同

Prism 6 及后续版本与早期版本报告结果不同的原因有两个:

精确P值与近似P值。当样本较小时,Prism 计算精确P值;当样本较大时,Prism 计算近似P值。结果中会注明这一点。Prism 6 计算精确P值的速度快得多(快得多!),因此对于更大的样本也会采用精确计算。只要较小组的数据值少于 100 个,它就会进行精确检验。

如何处理并列情况?如果两个数值完全相同,它们将并列同一排名。与大多数程序不同,Prism 6 即使存在并列情况,仍会计算精确P值。Prism 5 及更早版本始终计算近似P值,且不同版本采用的近似方法各不相同。详情。

参考文献

1. DJ Sheskin,《参数与非参数统计方法手册》,第4版,2007年,ISBN=1584888148。

2. Ying Kuen Cheung 和 Jerome H. Klotz,《使用链表实现曼-惠特尼-Wilcoxon分布》,《统计学报》7:805-813,1997。

3. JH Klotz,《统计学的计算方法》,2006年,https://www.mimuw.edu.pl/~pokar/StatystykaI/Literatura/KlotzBook.pdf

4. L. Hodges 和 E.L. Lehmann,"基于秩检验的位置估计",《数学统计年鉴》34: 598-611, 1963.