Please enable JavaScript to view this site.

Navigation: 使用 PRISM 进行统计分析 11 > 描述性统计

结果解读:四分位数与四分位距

Scroll Prev Top Next More

什么是百分位数?

百分位数有助于反映个体在群体中的相对位置。百分位数本质上是经过标准化处理的排名。第80百分位数是指80%的数值低于该值,而20%的数值高于该值的数值。百分位数采用与数据相同的单位表示。

中位数

中位数即第50百分位数。半数数值高于该值,半数数值低于该值。将数值按从小到大的顺序排列。若数据点数为奇数,中位数即位于中间的那个数值;若数据点数为偶数,中位数则是两个中间数值的平均值。

四分位数

四分位数将数据分为四个等分组。四分位数由第25、50和75百分位数划分,也称为第一、第二和第三四分位数。四分之一的数值小于或等于第25百分位数。四分之三的数值小于或等于第75百分位数。

四分位距

第75百分位数与第25百分位数之间的差值称为四分位距。这是量化数据离散程度的一种有效方法。

百分位的计算

计算中位数以外的百分位数并非易事。信不信由您,计算百分位数的方法至少有八种。以下是对不同方法的另一种解释(请滚动至“绘制位置”部分)。

Prism 通过首先计算以下表达式来求得百分位数值:

R = P * (n + 1)/100

其中 P 表示目标百分位数(四分位数为 25 或 75),n 表示数据集中的数据个数。计算结果即为与该百分位数对应的序数。若数据集包含 68 个数据点,则第 25 百分位数对应的序数为:

0.25 * 69 = 17.25

Prism(自第 5 版起)会在第 17 个和第 18 个值之间进行四分之一距离的插值。这是统计软件中最常用的方法,也是 Hyndman 和 Fan (1) 中的定义 6。采用此方法,任意点的百分位数为 k/(n+1),其中 k 是序数(从 1 开始计数),n 是样本量。  这与 Excel 计算百分位的做法不同,因此当样本量较小时,Prism 和 Excel 计算出的百分位数将不一致。

需警惕极小数据集的百分位数计算。本示例中,六个值的第90百分位数是多少?使用上述公式,R 等于 6.3。由于最大值的序数为 6,实际上无法计算第90百分位数。Prism 会将最大值报告为第90百分位数。 若尝试计算六个值的第10百分位数,也会出现类似问题。此时 R 等于 0.7,但最小值的序数为 1。Prism 会将最小值报告为第10百分位数。

请注意,关于中位数的计算方法不存在模糊拟合。所有百分位数的定义对于中位数都得出相同的结果。

五数概括

“五数概括”一词用于描述由五个数值组成的列表:最小值、第 25 百分位数、中位数、第 75 百分位数和最大值。这些数值与盒须图中绘制的数值相同(当盒须延伸至最小值和最大值时;Prism 还提供其他定义盒须的方法)。

参考文献

1. R.J. 和 Y. Fan,统计软件中的样本分位数,《美国统计学家》,50: 361-365, 1996