标准偏差(SD)用于量化变异性或离散程度,其单位与数据一致。
如果数据是从高斯分布中抽取的,那么预计 68% 的值会落在均值正负一个标准差的范围内,95% 的值会落在均值正负两个标准差的范围内。下图展示了从高斯分布中抽取的 250 个值。 阴影区域覆盖了均值正负一个标准偏差的范围,包含约三分之二的数值。虚线绘制在均值正负两个标准偏差的位置,约95%的数值位于这些界限之内。

下图展示了标准偏差与高斯分布之间的关系。概率分布下的面积代表整个总体,因此概率分布某部分下的面积代表总体的一部分。在左侧图表中,绿色(阴影)部分从均值下方一个标准偏差延伸至均值上方一个标准偏差。 该绿色区域约占总面积的68%,因此略多于三分之二的数值位于均值上下一个标准偏差的区间内。右侧图表显示,约95%的数值位于均值上下两个标准偏差的范围内。

下图展示了三组数据集,它们的均值和标准偏差完全相同。左侧的样本近似服从正态分布。另外两组数据集虽远离正态分布,但均值(100)和标准偏差(35)却完全一致。

该图指出,若假设数据服从正态分布,但该假设并不成立,则按常规方式解读均值和标准差可能会产生误导。
即使不假设数据服从高斯分布,标准差依然可以被解读。切比雪夫定理指出,即使数据并非从高斯分布中抽样:
•至少 75% 的数据值必须落在均值正负两个标准偏差的范围内
•至少89%的数值必须落在均值±3个标准偏差范围内
许多人报告均值和标准偏差时采用如下形式:“115±10 mmHg”,并在方法部分的脚注或说明中将第二个数值定义为标准偏差。
部分学者(1,2)认为,由于标准偏差是量化数据离散程度的单一数值,不应紧跟在正负符号之后,而应呈现为:“115 mmHg (SD 10)”。
1.Curran-Everett D, Benos D. 美国生理学会出版期刊中统计数据报告指南。《AJP - 胃肠与肝脏生理学》。2004年8月1日;287(2):G307.
2.Ludbrook J. 《临床与实验药理学及生理学》中统计数据的呈现。《临床与实验药理学及生理学》。2008年10月1日;35(10):1271–4;作者回复1274。