当样本量较小(例如少于十几个数据点)时,选择参数和非参数检验尤为重要。
若选择参数检验,而数据并非来自高斯分布,则结果将失去重要意义。当样本量极小且数据偏离高斯分布时,参数检验的稳健性较差。
若选择非参数检验,但实际数据符合正态分布,则很可能得到过大的P值,因为非参数检验的检验力低于参数检验,而在样本极小的情况下,这种差异尤为显著。
遗憾的是,当样本量很小的时候,正态性检验的检验力几乎为零,无法有效判断样本是否来自正态总体。小样本本身包含的信息不足,无法让您对整个总体的分布形状做出可靠的推断。
当样本量巨大(例如超过100左右)时,选择参数和非参数检验的决定就没那么重要了。
若选择参数检验而数据实际并非高斯分布,损失并不大,因为参数检验对高斯假设的违背具有鲁棒性,尤其当样本量相等(或接近相等)时。
如果您选择了非参数检验,但实际数据确实服从正态分布,损失也不大,因为当样本量较大时,非参数检验的检验力几乎与参数检验相当。
正态性检验在大样本中效果良好,因为大样本包含足够的数据,让您能够对数据所抽取的总体分布形状做出可靠的推断。但正态性检验并不能回答您真正关心的问题。 您真正想知道的是,该分布是否与高斯分布存在显著差异,以至于让人对参数检验的适用性产生怀疑。但正态性检验回答的是另一个问题。正态性检验旨在探查是否有证据表明该分布偏离了高斯分布。但在样本量巨大的情况下,正态性检验会检测到微小的偏离,这些差异微乎其微,不足以影响选择参数和非参数检验的决策。
大样本(>100左右) |
小样本(<12左右) |
|
对非高斯数据进行参数检验 |
可行。检验具有稳健性。 |
结果可能具有误导性。不稳健。 |
对高斯数据的非参数检验 |
可以。检验具有良好的检验力。 |
具有误导性。检验力太低。 |
正态性检验的实用性 |
略有帮助。 |
不太有用。 |