Prism 提供了四种正态性检验(作为“列统计量”分析的一部分):
我们建议使用 D'Agostino-Pearson检验。如果每个值都是唯一的,Shapiro-Wilk检验也效果很好,但在存在并列值时效果不佳。该检验的原理对于非数学专业人士来说难以理解。基于这些原因,尽管 Shapiro-Wilk检验在大多数情况下效果良好,但我们更倾向于使用 D'Agostino-Pearson检验。
为兼容旧版 Prism,本软件虽包含采用 Dallal-Wilkinson-Lilliefor 校正 P 值的 Kolmogorov-Smirnov检验,但不建议使用。
|
这三种检验都旨在评估分布与高斯理想分布的偏离程度。由于各检验采用不同的方法来量化与高斯分布的偏差,因此结果不同并不令人意外。根本问题在于,这些检验并未探讨两种已定义分布(例如高斯分布与指数分布)中哪一种更适合数据,而是仅比较“高斯”与“非高斯”的差异。这是一种相当模糊的比较。由于不同检验处理问题的方式各异,因此得出的结果也各不相同。
|
Kolmogorov-Smirnov检验需要5个或更多数据值。Shapiro-Wilk检验需要3个或更多数据值。达戈斯蒂诺检验需要8个或更多数据值,Anderson-Darling检验也是如此。
|
所有正态性检验都会给出一个P值。要理解任何P值,都需要了解零假设。在此情况下,零假设是所有数据值均来自高斯分布。P值回答的问题是:
如果该零假设成立,随机抽样的数据样本偏离高斯理想分布的程度与这些数据一样大的概率是多少?
|
您可在分析对话框中设置阈值。默认采用传统的 0.05 阈值。若 P<0.05,则数据未通过正态性检验;若 P>0.05,则数据通过正态性检验。当然,这个阈值完全是任意的。
|
不。总体可能服从高斯分布,也可能不服从。样本数据本身不能被描述为“服从高斯分布”或“不服从高斯分布”。这一术语仅适用于数据所抽取的整个总体。
|
大概没有。在绝大多数情况下,我们可以确信数据并非采样自理想的高斯分布。这是因为理想的高斯分布包含极小的负数和极大的正数。这些值虽然仅占高斯总体中所有值的极小部分,但它们确实是分布的一部分。而在收集数据时,可能的取值范围会受到限制。 压力、浓度、重量、酶活性以及许多其他变量不能取负值,因此无法从完美的高斯分布中抽样。其他变量虽然可以取负值,但受物理或生理限制,无法出现超大数值(或极低的负值)。
|
是的,但大量模拟实验表明,即使总体仅近似服从高斯分布,这些检验依然能有效工作。
|
其实不然。很难定义“足够接近”的具体含义,而且正态性检验的设计初衷并非如此。
|
每种正态性检验都会报告一个用于计算 P 值的中间值。遗憾的是,目前尚无明确的方法来解读 K2(由 D'Agostino 检验计算)、KS(由 Kolmogorov-Smirnov检验计算)或 W(由 Shapiro-Wilk检验计算)的含义。 据我所知,目前尚无直接方法利用这些数值来判断偏离正态的程度是否严重到需要放弃参数检验。Prism 仅报告这些数值,以便您将结果与其他文献或程序进行比较。
|
在大多数情况下,其实用性并不高。当样本量较小时,正态性检验对非高斯分布的检验力较弱。而当样本量较大时,数据是否为非高斯分布已不那么重要,因为 t 检验和方差分析(ANOVA)对这种偏差具有相当强的鲁棒性。
您真正需要的是一种检验,它能告诉您数据偏离高斯分布的程度是否严重到足以使那些假设高斯分布的统计方法失效。但正态性检验并不能做到这一点。
|
这种情况很常见。当变异系数(CV)较小(例如小于0.3)时,正态分布与几何标准差(GeoSD)较小(例如小于1.3)的对数正态分布非常相似。这类数据集通常会同时通过正态性检验和对数正态性检验(除非样本量极大)
|
参考文献
1 RB D'Agostino,《正态分布检验》,载于RB D'Agostino和MA Stepenes主编的《拟合优度检验技术》(Goodness-Of-Fit Techniques),Macel Decker出版社,1986年。
本页部分内容摘自 Motulsky, H.J. (2010)《直观生物统计学》(第2版)第24章。牛津大学出版社。ISBN=978-0-19-973006-3。