高斯分布在统计学中起着核心作用,这是因为有一个数学关系被称为中心极限定理。要理解这一定理,请按照下面的假想实验进行操作:
1.创建一个已知分布(不一定是高斯分布)的群体。
2.从该群体中随机抽取许多样本量相等的样本。列出这些样本的平均数。
3.画出均值频率分布的直方图。
根据中心极限定理,如果样本足够大,即使总体不是高斯分布,均值的分布也会服从高斯分布。由于大多数统计检验(如 t 检验和方差分析)只关注均值之间的差异,因此即使种群不是高斯分布,中心极限定理也能让这些检验很好地发挥作用。要使其有效,样本必须相当大。多大的样本呢?这依赖于种群分布与高斯分布的差异程度。假设种群的分布并不十分异常,一般来说,10 个左右的样本量就足以引用中心极限定理了。
要进一步了解理想的高斯分布为何如此有用,请阅读任何统计学课本中有关中心极限定理的内容。