Please enable JavaScript to view this site.

Navigation: 统计学原理 > 异常值

Grubbs 检验的原理

Scroll Prev Top Next More

异常值检验能做什么?

没有任何数学计算能确切地告诉您,该异常值是否与其他数据来自同一个总体,还是来自不同的总体。然而,统计计算可以回答这个问题:

如果这些数值确实都来自高斯分布,那么您观察到的那个与其他数值相差甚远的数值出现的概率是多少?

如果该概率很小,那么您将得出结论:异常值并非来自与其他数值相同的分布。假设您对上述三个问题均回答“否”,则您有充分理由将其排除在分析之外。

统计学家设计了多种检测异常值的方法。所有方法首先都会量化异常值与其他值的距离。这可以是异常值与所有数据点均值的差值、异常值与剩余数据点均值的差值,或是异常值与次近值之间的差值。 接下来,通过除以某种离散度指标(如所有值的标准差、剩余值的标准差或数据范围)来对该值进行标准化。 最后,计算一个P值来回答这个问题:如果所有数据点确实都来自高斯总体,那么随机获得一个与其他数据点相差如此之大的异常值的概率是多少?如果P值较小,则可得出结论:该异常值与其他数据点的偏差在统计学上具有显著性,且极有可能来自不同的总体。

格鲁布斯检验的工作原理

格鲁布斯检验是定义异常值最常见的方法之一,且非常易于理解。该方法也被称为ESD法(极值斯蒂尤特化偏差)。

第一步是量化异常值与其他值的距离。计算比率 Z,即异常值与均值的差除以标准差。如果 Z 值较大,则该值与其他值相差甚远。请注意,均值和标准差是根据所有值(包括异常值)计算得出的。

有时您会看到该值被称为 G 而不是 Z。

由于高斯总体中约有5%的值距均值超过1.96个标准偏差,因此当Z值大于1.96时,您可能会首先推断该异常值来自不同的总体。这种方法仅在已知总体均值和标准偏差(来自其他数据)时才有效。尽管在实验科学中这种情况很少见,但在质量控制中却很常见。 您从历史数据中已知总体均值和标准差,并希望判断最新值是否与其他数据一致。这就是质量控制图的基础。

在分析实验数据时,您并不知道总体标准差。相反,您需要根据数据计算标准差。异常值的存在会增加计算出的标准差。 由于异常值的存在会同时增加分子(该值与均值的差值)和分母(所有值的标准差),因此Z值无法达到您预期的那么大。例如,若样本量N=3,无论数据集如何,Z值都不会超过1.155。更一般地说,对于包含N个观测值的样本,Z值永远不会超过:

Grubbs等人已编制了Z的临界值表。如预期,临界值随样本量增加而增大。若您计算出的Z值大于表中的临界值,则P值小于0.05。

请注意,Grubbs检验仅针对样本中最极端的值进行检验。如果无法明确判断哪个值最极端,则需对所有值计算Z值,但仅根据最大的Z值计算Grubbs检验的P值。

Prism 支持在数据集中仅包含三个数值的情况下进行 Grubbs 检验。

如何解读 P 值

如果 P 值小于 0.05,这意味着如果所有数据确实都来自单个高斯分布,那么仅凭偶然性,出现一个与其他数据值相差如此之远(无论朝哪个方向)的异常值的概率小于 5%。

请注意,5% 的概率(或您选择的任何 α 值)适用于整个数据集。如果您的数据集包含 100 个值,且所有值均采样自高斯分布,则有 5% 的概率,Grubbs 异常值检验会将最大值(或最小值)判定为异常值。 如果您对大量数据集进行异常值检验,预计会有 5% 的数据集出现此类误判。

请不要混淆,以为这5%的概率适用于每个数据点。 如果数据集中有100个值,且均来自高斯分布,那么格鲁布斯检验将最远离均值的那个值判定为异常值的概率为5%。这与(错误地)推断出预计会有5个值(占总数的5%)被错误地判定为异常值是不同的。  

参考文献

B. Iglewicz 和 D.C. Hoaglin. 《如何检测和处理异常值》(ASQC 质量控制基础参考丛书,第 16 卷),美国质量控制协会,1993 年。

V Barnett、T Lewis、V Rothamsted。《统计数据中的异常值》(威利概率与数理统计丛书·应用概率与统计系列),约翰·威利父子出版社,1994年。