Please enable JavaScript to view this site.

Navigation: 统计学原理 > 异常值

ROUT 方法的原理

Scroll Prev Top Next More

ROUT 方法的基础

ROUT 方法最初是作为一种从非线性回归中识别异常值的方法而开发的。了解更多关于 ROUT 方法的信息。

简而言之,该方法首先采用一种鲁棒方法对数据进行拟合,使异常值的影响微乎其微。随后,它利用基于错误发现率的全新异常值检测方法,判断哪些数据点与模型预测值的偏差足够大,从而被判定为异常值。

当您要求 Prism 在一组列数据中检测异常值时,它只是采用了这种方法。它将您输入的值视为 Y 值,并拟合模型 Y = M,其中 M 是稳健均值。[如果您想使用 Prism 的非线性回归分析来实现这一点,则需要为每一行分配任意的 X 值,然后拟合模型 Y = X*0 + M。)

该方法可检测任意数量的异常值(最多可达样本量的 30%)。

Prism 仅需数据集中三个值即可执行 ROUT 检验。

什么是 Q?

ROUT 方法基于错误发现率 (FDR),因此您需要指定 Q,即期望的最大 FDR。Q 的解读取决于数据集中是否存在异常值。

当没有异常值(且分布完全服从高斯分布)时,Q 与 alpha 非常相似。假设所有数据均来自高斯分布,Q 即为(错误地)识别出一个或多个异常值的概率。

当数据中存在异常值时,Q 即为期望的最大错误发现率。若将 Q 设为 1%,则意味着目标是确保被识别出的异常值中,虚假识别的比例不超过 1%(实际上只是高斯分布的尾部),而至少 99% 属于真正的异常值(来自不同的分布)。

ROUT 与 Grubbs 方法的比较

我进行了模拟实验,以比较Grubbs法和ROUT法在检测异常值方面的表现。简而言之,数据是从高斯分布中抽取的。在大多数情况下,会添加异常值(从具有指定限值的均匀分布中抽取)。每个实验设计模拟了25,000次,我统计了出现零个、一个、两个或两个以上异常值的模拟次数。

当没有异常值时,ROUT 检验和 Grubbs 检验的表现几乎完全一致。为 ROUT 方法指定的 Q 值等同于您为 Grubbs 检验设定的 alpha 值。

当存在单个异常值时,Grubbs检验在检测该异常值方面略胜一筹。 ROUT 方法的假阴性率和假阳性率均较高。换言之,它漏检异常值的概率略高,且即使模拟数据中仅包含一个异常值,它也更可能检测出两个异常值。这并不令人意外,因为 Grubbs 检验原本就是为检测单个异常值而设计的。虽然两种方法之间的差异显而易见,但并不显著。

当小数据集集中存在两个异常值时,ROUT检验的表现要好得多。迭代式Grubbs检验容易受到掩蔽效应的影响,而ROUT检验则不会。掩蔽效应是否构成问题,取决于数据集大小以及异常值与其他数据均值的距离。在掩蔽效应可能实际发生的情况下,ROUT检验的效果优于Grubbs检验。  例如,当样本量n=10且存在两个异常值时,Grubbs检验在98.8%的模拟中未能同时发现这两个异常值(在剩余1.2%的模拟中,Grubbs检验仅发现其中一个异常值)。相比之下,ROUT方法在92.8%的模拟中成功识别了两个异常值,且仅有6%的模拟未能同时发现这两个异常值。

总结:

对于其设计初衷 - 从高斯分布中检测单个异常值 - Grubbs 方法略优于 ROUT 方法。

在某些情况下,ROUT 方法在检测两个异常值方面远优于迭代 Grubbs 检验。

参考文献

Motulsky HM 和 Brown RE,《使用非线性回归拟合数据时检测异常值 - 基于稳健非线性回归和错误发现率的新方法》,BMC Bioinformatics 2006, 7:123。下载地址:http://www.biomedcentral.com/1471-2105/7/123