Please enable JavaScript to view this site.

有关 Kolmogorov-Smirnov 检验的主要事实

双样本 Kolmogorov-Smirnov 检验是一种非参数检验,用于比较两个数据集(1,2)的累积分布。

该检验是非参数检验。它不假定数据是从高斯分布(或任何其他定义的分布)中采样的。

如果将所有值转换为对数、倒数或任何转换,结果都不会改变。KS 检验报告两个累积分布之间的最大差异,并根据该差异和样本量计算 P 值。变换会拉伸(如果选择了奇怪的变换,甚至会重新排列)频率分布的 X 轴,但不能改变两个频率分布之间的最大距离。

将所有数值转换为它们的等级也不会改变累积频率分布之间的最大差值(《莱曼》第 35-36 页,参考文献 2)。因此,尽管检验分析的是实际数据,但它等同于等级分析。因此,该检验对异常值相当稳健(就像 Mann-Whitney 检验一样)。

零假设是两组都是从具有相同分布的群体中抽样。它可以检验任何违反该零假设的情况--不同的中位数、不同的方差或不同的分布。

由于它比 Mann-Whitney 检验更能检验零假设的偏差,因此它检测中位数变化的检验力较小,但检测分布形状变化的检验力较大(Lehmann,第 39 页)。

由于该检验不比较任何特定参数(即平均值或中位数),因此不报告任何置信区间。

如果结果(Y 值)是分类的,有很多并列关系,就不要使用 Kolmogorov-Smirnov 检验。只有在比率或区间数据中才使用,因为在这些数据中,并列情况很少。

单尾和双尾 P 值的概念只有在研究结果有两个可能的方向(即两个均值之间的差异)时才有意义。两个累积分布可能在很多方面存在差异,因此双尾的概念并不合适。Prism 报告的 P 值基本上有很多尾。有些文章称其为双尾 P 值。

解读 P 值

P 值就是这个问题的答案:

如果两个样本是从完全相同的人群中随机抽样的,那么两个累积频率分布像观察到的那样相距甚远的概率是多少?更准确地说,科莫戈罗夫-斯米尔诺夫 D 统计量的值与观察值一样大或更大的概率是多少?

如果 P 值较小,则得出结论:两组样本来自不同分布的群体。种群可能在中位数、变异性或分布形状上有所不同。

绘制累积频率分布图

KS 检验是通过比较两个累积频率分布来工作的,但它并不绘制这些分布图。为此,请回到数据表,单击分析并选择频率分布分析。选择要创建累积频率分布并制表相对频率。

不要与 KS 正态性检验混淆

双样本 Kolmogorov-Smirnov 检验(用于比较两组数据)与单样本 Kolmogorov-Smirnov 检验(也称为 Kolmogorov-Smirnov 拟合优度检验,用于检验一种分布是否与理论预期有很大差异)很容易混淆。

单样本检验最常用于正态性检验,将单个数据集中的数据分布与高斯分布的预测进行比较。Prism将此正态性检验作为列统计分析的一部分。

与曼-惠特尼检验比较

Mann-Whitney 检验也是一种非参数检验,用于比较两个非配对组。Mann-Whitney 检验的原理是将所有值从低到高排序,然后比较两组值的平均值。

Prism 如何计算 P 值

Prism 首先生成两个累积相对频率分布,然后询问这两个分布在相距最远的点上相差多远。Prism 采用的是 Lehmann (2) 所解释的方法。该距离以 Kolmogorov-Smirnov D 报告。

根据累积频率分布之间的最大距离计算 P 值,同时考虑两组的样本量。在样本较大的情况下,可以使用一个很好的近似值(2, 3)。

当样本量较小时,则使用精确法,根据 Prism 的定义,精确法是指从 n1+n2 值中排列出 n1 值的次数少于 60,000 次,其中 n1 和 n2 是两个样本量。因此,对这几组成对值进行精确检验(括号中的两个数字是两组的值数):

(2, 2), (2, 3) ... (2, 346)

(3, 3), (3, 4) ... (3, 69)

(4, 4), (4, 5) ... (4, 32)

(5, 5), (5, 6) ... (5, 20)

(6, 6), (6, 7) ... (6, 15)

(7, 7), (7, 8) ... (7, 12)

(8, 8), (8, 9), (8, 10)

(9, 9)

Prism 在其精确算法(内部开发)中考虑了并列关系。它系统地将实际数据在两组之间进行洗牌(保持样本量)。它报告的 P 值是在这些重新洗牌的数据集中,根据重新洗牌的数据集计算出的 D 大于或等于根据实际数据计算出的 D 的分数。

参考文献

1.Kirkman, T.W. (1996)Statistics to Use:Kolmogorov-Smirnov 检验。(2010 年 2 月 10 日访问)

2.Lehmann, E. (2006),Nonparametrics:基于等级的统计方法》。 ISBN: 978-0387352121

3. WH Press, et. al, Numerical Recipes, third edition, Cambridge Press, ISBN: 0521880688

 

© 1995-2019 GraphPad Software, LLC. All rights reserved.