Please enable JavaScript to view this site.

正态性检验旨在回答什么问题?

所有正态性检验都会给出一个P值。要理解任何P值,都需要了解零假设。在此情况下,零假设是所有值均采样自服从高斯分布的总体。

P值回答了以下问题:

如果该零假设成立,那么随机抽取的数据样本偏离高斯理想分布的程度与这些数据一样大的概率是多少?

Prism 还采用传统的 0.05 阈值来判断数据是否通过正态性检验。若 P 值大于 0.05,则答案为“是”;若 P 值小于或等于 0.05,则答案为“否”。  

如果正态性检验的 P 值较高,我该得出什么结论?

您只能说这些数据与高斯分布并不矛盾。正态性检验无法证明数据是从高斯分布中抽取的。正态性检验所能做的,只是表明数据与高斯分布的偏差不超过仅由随机性所导致的预期范围。对于大型数据集,这令人放心;但对于较小的数据集,正态性检验在检测轻微偏离高斯分布方面检验力有限。

如果正态性检验的P值很低,我该得出什么结论?

零假设是数据采样自高斯分布。如果P值足够小,您就拒绝该零假设,从而接受备择假设,即数据并非采样自高斯总体。该分布可能接近高斯分布(在数据集较大情况下),也可能与其相去甚远。正态性检验无法提供关于备择分布的任何信息。

如果 P 值足够小,足以判定数据与高斯分布的偏差具有“统计学显著性”,那么您有四种选择:

数据可能来自另一个可识别的分布。如果是这样,您可能可以通过对数据进行变换来使其服从高斯分布。例如,如果数据来自对数正态分布,则将所有值转换为对数。

一个或几个异常值的存在可能导致正态性检验失败。运行异常值检验,并考虑剔除这些异常值。

如果偏离正态性的程度较小,您可以选择不采取任何措施。统计检验通常对轻微违反高斯假设的情况具有较强的鲁棒性。

改用不假设高斯分布的非参数检验。但是否使用非参数检验是一个重大决策。不应仅基于单次正态性检验的结果,也不应自动化处理