1.计算每个数值与样本均值之差的平方。
2.将这些值相加。
3.将总和除以 N-1。这称为方差。
4.求其平方根即可得到标准偏差。
为什么在上述第三步中要用 N-1 而不是 N 除以?在第一步中,您计算了每个值与这些值的均值之间的差。您不知道总体真正的均值;您所知道的只是样本的均值。除了极少数样本均值恰好等于总体均值的情况外,数据会更接近样本均值,而不是真正的总体均值。 因此,您在第二步计算出的值,很可能比在第一步使用真实总体均值时得到的值要小一些(但绝不会更大)。为了弥补这一点,我们选择除以 n-1 而不是 n。
但为什么是 n-1?如果您知道样本均值,并且知道所有数据点中的所有值,除了最后一个,您就能推算出那个最后一个值必须是多少。统计学家说,这里有 n-1 个自由度。
在分析样本数据并希望得出更普遍结论的常见情况下,会使用 n-1 公式。通过这种方式(分母为 N-1)计算出的标准差,是您对总体标准差值的最佳估计。
如果您只是想量化特定数据集的变异程度,且不打算外推以得出更广泛的结论,请使用分母为N的公式计算标准差。所得标准差是这些特定值的标准差,但很可能低估了这些数据点所抽取的总体标准差。
科学的目标始终是进行概括,因此在分析科学数据时不应使用分母为 n 的公式。我能想到的唯一一个在分母中使用 n(而非 n-1)可能有意义的例子,是量化考试分数之间的变异性。但更好的做法是绘制所有分数的散点图,或频率分布直方图。
Prism 始终使用 n-1 来计算标准差。
标准差用于量化数据离散程度,因此显然需要不止一个数值!两个数值够吗?许多人认为仅凭两个数值无法计算标准差。但这是错误的。当数据仅为重复值(n=2)时,计算标准差的公式同样适用。
结果是否有效?从数学角度看没有理由怀疑其有效性,但我通过模拟实验给出了答案。我模拟了 10,000 个数据集,其中 n=2,每个数据点均从高斯分布中随机选取。由于所有统计检验实际上都基于方差(即标准差的平方),我将根据重复值计算出的方差与真实方差进行了比较。 这10,000组模拟数据的方差平均值与原始真实方差的偏差在1%以内。这意味着基于重复数据计算的标准差,是衡量数据离散程度的有效指标。虽然结果可能偏高也可能偏低,但通常与真实标准差相差甚远。
Excel 可以通过 STDEV() 函数计算给定数值范围的标准偏差。例如,若要计算单元格 B1 至 B10 中的数值标准偏差,请在 Excel 中使用以下公式:
=STDEV(B1:B10)
该函数在分母中使用 n-1 来计算标准差。若需在分母中使用 N 来计算标准差(参见上文),请使用 Excel 的 STDEVP() 函数。