Please enable JavaScript to view this site.

Navigation: 统计学原理 > 高斯分布

高斯分布的起源

Scroll Prev Top Next More

当许多相互独立的随机因素以加性方式作用并产生变异性时,就会出现高斯分布。通过一个例子可以最直观地理解这一点。

设想一个非常简单的“实验”。您用移液管吸取一些水并称重。您的移液管标称容量为10微升,但实际吸取量在9.5至10.5微升之间随机波动。如果您重复吸取一千次,并绘制结果的频率分布直方图,其形状将如下图所示。

平均重量为10毫克,这相当于10微升水的重量(至少在地球上是这样)。其分布呈平坦状,丝毫没有高斯分布的迹象。

现在让我们把实验变得更复杂一些。我们用移液管吸取两次,然后称量结果。平均重量现在将达到20毫克。但您预计误差有时会相互抵消。下图就是您得到的结果。

每个移液步骤都存在平坦的随机误差。将它们相加后,其分布就不再是平坦的。例如,只有当两个移液步骤的误差都显著朝同一方向偏移时,才会得到接近 21 毫克的重量,而这种情况很少见。

现在我们将这一情况扩展到十个移液步骤,并观察各步骤总和的分布情况。

该分布与理想的高斯分布非常相似。如果将实验次数从 1,000 次增加到 15,000 次,结果将更接近高斯分布。

该模拟演示了一个也可以通过数学方法证明的原理:如果实验数据中的离散点来自众多可相加且权重几乎相等的来源,并且样本量足够大,那么这些离散点将近似服从高斯分布。

高斯分布是一种数学上的理想模型。实际上,几乎没有(如果有的话)生物分布真正服从高斯分布。 高斯分布的范围从负无穷延伸至正无穷。如果上例中的权重真的服从高斯分布,那么权重为负值的可能性(尽管非常小)是存在的。由于权重不能为负,因此该分布不能是严格的高斯分布。但它与高斯分布足够接近,因此可以使用那些假设高斯分布的统计方法(如t检验和回归分析)。