Please enable JavaScript to view this site.

Navigation: 统计学原理 > 置信区间

标准差的置信区间

Scroll Prev Top Next More

对于从样本数据中计算出的几乎任何值,包括标准偏差,都可以计算出其置信区间。

样本的标准差与总体标准差并不相同

从一组样本值中计算标准偏差非常简单。但这个标准偏差有多准确呢?仅仅是偶然,您可能恰好获得了分布紧密的数据,导致标准偏差偏低。或者,您可能随机获得了比总体数据分散得多的值,导致标准偏差偏高。您的样本标准偏差并不等于总体标准偏差,甚至可能与之相差甚远。

置信区间不仅适用于均值

置信区间最常用于计算均值。但置信区间的概念非常普遍,您可以将任何计算值的精度表示为95%置信区间(CI)。另一个例子是回归分析中控制数据的置信区间,例如斜率的置信区间。

标准差的95%置信区间

样本标准差仅仅是根据样本数据计算得出的一个数值。虽然不常进行,但计算标准差的置信区间确实是可行的。GraphPad Prism 虽不提供此计算功能,但免费的 GraphPad QuickCalc 支持该功能。

标准差置信区间的解读很简单。若假设数据是从高斯分布中随机且独立抽取的,则可以95%的置信度认为该置信区间包含真实的总体标准差。

标准差的置信区间有多宽?答案当然依赖于样本量(n)。如下表所示,当样本量较小时,该区间会相当宽。

n        95% 标准差置信区间

20        .45×标准差 至 31.9×标准差

30        .52×标准差 至 62.9×标准差

50        .60×标准差 至 2.87×标准差

100        .69×标准差 至 1.83×标准差

250        .78×标准差 至 1.39×标准差

500        .84*SD 至 1.25*SD

1000        .88*SD 至 1.16*SD

5000        .94*SD 至 1.07*SD

10000        .96*SD 至 1.05*SD

示例

数据:23, 31, 25, 30, 27

均值:        27.2

标准差:        3.35

根据这五个数值计算出的样本标准偏差为 3.35。但这些数值所抽样的总体真实标准偏差可能截然不同。从表中 n=5 这一行来看,95% 置信区间从 0.60 倍标准偏差延伸至 2.87 倍标准偏差。 因此,95% 置信区间范围为 0.60×3.35 至 2.87×3.35,即 2.01 至 9.62。当您仅根据五个数值计算标准差时,该标准差的 95% 置信上限几乎是下限的五倍。

大多数人都会惊讶于小样本对标准偏差的估计竟如此不准确。在小数据集上,随机抽样可能产生巨大影响,导致计算出的标准偏差与真实的总体标准偏差相差甚远。

请注意,置信区间并非以计算出的标准差为中心呈对称分布。为什么?由于标准差总是正数,下限不能小于零。这意味着置信区间的上限通常比下限延伸得更远。在小样本情况下,这种不对称性非常明显。

使用 Excel 计算标准差的置信区间

以下 Excel 公式用于计算标准差的置信区间。n 代表样本量;α 取值为 0.05 表示 95% 置信水平,0.01 表示 99% 置信水平,依此类推:

下限:=SD*SQRT((n-1)/CHIINV((alpha/2), n-1))

上界:=SD*SQRT((n-1)/CHIINV(1-(alpha/2), n-1))

这些公式摘自 Sheskin 著作第 197-198 页(参考文献见下文)。

参考文献

David J. Sheskin,《参数与非参数统计方法手册》,第四版,ISBN:1584888148。