Please enable JavaScript to view this site.

峰度

峰度用于量化数据分布的尾部是否符合高斯分布。

高斯分布的峰度为 0。

如果某分布的尾部数据值少于高斯分布,则其峰度为负值。

如果一个分布的尾部值比高斯分布多(或位于更外侧的尾部),则其峰度为正。

峰度没有单位。

虽然人们通常认为它衡量的是峰值形状,但实际上,峰度几乎无法反映峰值的形状。其唯一明确的解读是尾部数据值。本质上,它衡量的是异常值的存在(1)。

Prism 报告的数值有时被称为“超额峰度”,因为高斯分布的预期峰度为 0.0。

另一种峰度的定义是将 Prism 报告的数值加上 3。根据这一定义,高斯分布的预期峰度应为 3.0。

峰度的计算方法

1.从每个数值中减去样本均值,结果大于均值时为正,小于均值时为负,等于均值时为零。

2.将步骤 1 中计算出的每个差值除以该值的标准偏差。这些比值(即每个值与均值的差除以标准偏差)称为 z 比值。根据定义,这些值的平均值为零,其标准偏差为 1。

3.对于每个数值,计算 z⁴。如果这样表示不够直观,即 z 的四次方。所有这些数值均为正数。

4.计算该数值列表的平均值,方法是将这些值的总和除以 n-1,其中 n 是样本中的数值个数。为什么是 n-1 而不是 n?原因与计算标准偏差时使用 n-1 是一样的

5.对于高斯分布,该平均值预期为 3。因此,从该平均值中减去 3。高斯分布数据的峰度预期为 0。该值(减去 3 后的结果)有时被称为超峰度

为什么分布中间的值对峰度影响不大?

因为 z 值要乘以四次方,所以只有较大的 z 值(即远离均值的值)才会对峰度产生显著影响。如果一个值的 z 值为 1,另一个值为 2,那么第二个值对峰度的影响将是前者的 16 倍(因为 2 的四次方等于 16)。 如果一个值的 z 值为 1,另一个 z 值为 3(即距离均值远三倍),那么第二个值对峰度的影响将大 81 倍(因为 3 的四次方等于 81)。 因此,接近均值的数值(尤其是距离均值小于一个标准差的数值)对峰度几乎没有影响,而远离均值的数值则会产生巨大影响。正因如此,峰度并不能量化分布的尖峰程度,也无法真正量化分布形状。相反,峰度量化的是远离均值的点所产生的总体影响。

参考文献

1.Westfall, P. H. (2014). 《作为尖峰度的峰度:1905–2014。安息吧》。《美国统计学家》,68(3),191–195。