正态性检验的解读
正态性检验的结果以 P 值的形式呈现,该值回答了以下问题:
如果您的模型是正确的,且模型周围的所有散点都服从高斯分布,那么获得残差与当前数据一样(或更甚)偏离高斯分布的数据的概率是多少?
若 P 值较大,则残差通过正态性检验;若 P 值较小,则残差未通过正态性检验,这表明您的数据不符合回归分析的假设之一。需考虑的因素:
•拟合不同的模型
•调整数据权重
较大的 P 值意味着您的数据符合回归的假设(但这绝不能证明模型是正确的)。当数据点数量较少时,正态性检验在检测与高斯分布的轻微偏差方面检验力较弱。
我们建议采用 D'Agostino-Pearson 正态性检验。该方法首先计算偏度和峰度,以量化分布在不对称性和形状方面偏离高斯分布的程度。随后,它计算这些数值与高斯分布期望值的偏差,并根据这些偏差的总和得出一个单一的 P 值。 这是一种多功能且强大的(相较于其他一些方法)正态性检验,值得推荐。请注意,D'Agostino开发了多种正态性检验。Prism采用的是“综合K2”检验。
另一种替代方案是 Shapiro-Wilk 正态性检验。我们更倾向于使用 D'Agostino-Pearson检验,原因有二。其一,虽然 Shapiro-Wilk检验在所有残差均不重合时表现优异,但在存在多个相同残差的情况下效果不佳。其二,该检验的理论基础对于非数学专业人士而言难以理解。
Prism 的早期版本仅提供 Kolmogorov-Smirnov检验。 出于一致性考虑,我们仍保留该检验,但不再推荐使用。该检验通过将数据的累积分布与预期的高斯分布进行比较,并仅根据最大偏差来确定 P 值。这并非评估正态性的高灵敏度方法,我们现认同以下观点¹:“Kolmogorov-Smirnov检验仅具历史意义,绝不应被使用。”
最初发表的Kolgmogorov-Smirnov方法假设您已知总体均值和标准差(可能来自先前研究)。但在分析数据时,您很少能确切知道总体均值和标准差。 您仅知晓样本的均值和标准差。因此,为了计算 P 值,Prism 采用了 Dallal 和 Wilkinson 对 Lilliefors 方法的近似处理(《美国统计学家》,40:294-296, 1986)。由于该方法仅在 P 值较小的情况下才准确,因此对于较大的 P 值,Prism 仅报告“P>0.10”。
Prism 8 新增了 Anderson-Darling检验。Kolmogorov-Smirnov检验仅考察实际分布与高斯分布之间的最大偏差,而 Anderson-Darling检验则将所有偏差相加。Prism 采用的 Anderson-Darling检验形式,针对其使用样本均值和样本标准差、且无法知晓用于比较数据的总体均值和标准差这一事实进行了修正。
1 RB D'Agostino,《正态性检验》,载于 RB D'Agostino 和 MA Stepenes 编著的《拟合优度技术》(Goodness-Of-Fit Techniques),Macel Decker 出版社,1986 年。