偏度量化了分布的对称程度。
•对称分布的偏度为零。
•右侧长尾(数值较高)的非对称分布具有正偏度。
•左尾较长(数值较小)的非对称分布具有负偏度。
•偏度是无量纲的。
•任何阈值或经验法则都是任意的,但这里提供一个参考:如果偏度大于 1.0(或小于 -1.0),则偏度显著,且分布远离对称。
偏度有多种定义方式。以下步骤说明了 Prism 采用的方法,即 G1 法(最常见的方法之一)。该方法与 Excel 中的 skew() 函数完全一致。
1.我们需要了解数据围绕样本均值的对称性。因此第一步是将每个数值减去样本均值,结果大于均值时为正,小于均值时为负,等于均值时为零。
2.要计算无量纲的偏度指标,需将步骤1中计算出的每个差值除以这些值的标准偏差(注意:计算偏度时,应使用N而非N-1来计算标准偏差)。这些比值(即每个值与均值的差除以标准偏差)被称为z分数。
3.针对每个数值,计算 z³。请注意,数值的三次方会保留原符号。正数的三次方仍是正数,负数的三次方仍是负数。
4.计算 z3 值的平均值(计算所有 z3 值的和,并将该和除以样本中的数据个数)。 如果分布是对称的,正值和负值将相互抵消,平均值将接近零。如果分布不对称,当分布向右偏时平均值为正,向左偏时平均值为负。该平均值称为Fisher -皮尔逊偏度系数,有时记为“g1”。
5.校正偏差。在步骤4中计算的平均值在小样本情况下存在偏差 - 其绝对值小于应有值。通过将z3的均值乘以比率 sqrt(N*(N-1))/(N-2) 来校正该偏差。若偏度为正,此校正会增大数值;若偏度为负,则会使数值更趋于负值。 随着样本量N增大,该校正值会逐渐接近1,校正幅度随之减小。但在小样本情况下,校正效果更为显著。最终的校正值有时被称为“调整后的Fisher -皮尔逊偏度系数”,有时也标记为“G1”。这是Prism软件报告的偏度值。
Prism报告的偏度值的完整公式如下:
其中