GraphPad Prism 11 Statistics Guide - ROUT 方法的原理

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

ROUT 方法的原理

ROUT 方法的基础

ROUT 方法最初是作为一种从非线性回归中识别异常值的方法而开发的。了解更多关于 ROUT 方法的信息。

简而言之，该方法首先采用一种鲁棒方法对数据进行拟合，使异常值的影响微乎其微。随后，它利用基于错误发现率的全新异常值检测方法，判断哪些数据点与模型预测值的偏差足够大，从而被判定为异常值。

当您要求 Prism 在一组列数据中检测异常值时，它只是采用了这种方法。它将您输入的值视为 Y 值，并拟合模型 Y = M，其中 M 是稳健均值。[如果您想使用 Prism 的非线性回归分析来实现这一点，则需要为每一行分配任意的 X 值，然后拟合模型 Y = X*0 + M。)

该方法可检测任意数量的异常值（最多可达样本量的 30%）。

Prism 仅需数据集中三个值即可执行 ROUT 检验。

什么是 Q？

ROUT 方法基于错误发现率 (FDR)，因此您需要指定 Q，即期望的最大 FDR。Q 的解读取决于数据集中是否存在异常值。

当没有异常值（且分布完全服从高斯分布）时，Q 与 alpha 非常相似。假设所有数据均来自高斯分布，Q 即为（错误地）识别出一个或多个异常值的概率。

当数据中存在异常值时，Q 即为期望的最大错误发现率。若将 Q 设为 1%，则意味着目标是确保被识别出的异常值中，虚假识别的比例不超过 1%（实际上只是高斯分布的尾部），而至少 99% 属于真正的异常值（来自不同的分布）。

ROUT 与 Grubbs 方法的比较

我进行了模拟实验，以比较Grubbs法和ROUT法在检测异常值方面的表现。简而言之，数据是从高斯分布中抽取的。在大多数情况下，会添加异常值（从具有指定限值的均匀分布中抽取）。每个实验设计模拟了25,000次，我统计了出现零个、一个、两个或两个以上异常值的模拟次数。

当没有异常值时，ROUT 检验和 Grubbs 检验的表现几乎完全一致。为 ROUT 方法指定的 Q 值等同于您为 Grubbs 检验设定的 alpha 值。

当存在单个异常值时，Grubbs检验在检测该异常值方面略胜一筹。 ROUT 方法的假阴性率和假阳性率均较高。换言之，它漏检异常值的概率略高，且即使模拟数据中仅包含一个异常值，它也更可能检测出两个异常值。这并不令人意外，因为 Grubbs 检验原本就是为检测单个异常值而设计的。虽然两种方法之间的差异显而易见，但并不显著。

当小数据集集中存在两个异常值时，ROUT检验的表现要好得多。迭代式Grubbs检验容易受到掩蔽效应的影响，而ROUT检验则不会。掩蔽效应是否构成问题，取决于数据集大小以及异常值与其他数据均值的距离。在掩蔽效应可能实际发生的情况下，ROUT检验的效果远优于Grubbs检验。例如，当样本量n=10且存在两个异常值时，Grubbs检验在98.8%的模拟中未能同时发现这两个异常值（在剩余1.2%的模拟中，Grubbs检验仅发现其中一个异常值）。相比之下，ROUT方法在92.8%的模拟中成功识别了两个异常值，且仅有6%的模拟未能同时发现这两个异常值。

总结：

•对于其设计初衷 - 从高斯分布中检测单个异常值 - Grubbs 方法略优于 ROUT 方法。

•在某些情况下，ROUT 方法在检测两个异常值方面远优于迭代 Grubbs 检验。

参考文献

Motulsky HM 和 Brown RE，《使用非线性回归拟合数据时检测异常值 - 基于稳健非线性回归和错误发现率的新方法》，BMC Bioinformatics 2006, 7:123。下载地址：http://www.biomedcentral.com/1471-2105/7/123。

Please enable JavaScript to view this site.

ROUT 方法的基础

什么是 Q？

ROUT 与 Grubbs 方法的比较

参考文献