Please enable JavaScript to view this site.

ROUT 异常值去除方法的工作原理

Prism 提供了一种独特的识别和去除异常值的方法,详见参考文献 1。由于该方法结合了鲁棒回归和异常值去除,因此我们将其称为 ROUT 方法。  

ROUT 回归方法遵循以下步骤。

1.首先使用我们的鲁棒非线性回归方法拟合一条不受异常值影响的曲线。

2.分析鲁棒拟合的残差以识别任何异常值。此步骤采用了一种新的异常值检验,该方法改编自用于检验多重比较的“错误发现率”方法。

3.去除异常值,并对剩余数据执行普通最小二乘回归。

如何在 Prism 中使用 ROUT 方法

尽管 ROUT 方法需要三个步骤(如上所述),但 Prism 会自动完成所有操作。您只需在非线性回归对话框的“拟合”选项卡上勾选一个选项:

随后,Prism将自动识别异常值、剔除异常值,并对剩余数据点进行拟合。异常值将显示在单独的表格中,异常值的数量则会统计在主结果表中。

ROUT系数Q

Q 的数值决定了 ROUT 法判定异常值的严格程度。其数学细节详见参考文献 1。该数值在非线性回归对话框的“方法”选项卡中设置。

若将 Q 设为较大数值,判定异常值的阈值将更宽松。这意味着 Prism 的异常值检验力会增强,但也更可能频繁地将正常数据误判为“异常值”。

若将 Q 设为较低值,定义异常值的阈值将更严格。这意味着 Prism 的异常值检验力会减弱,但将某点错误地定义为异常值的可能性也会降低。

除非有充分理由选择其他设置,否则我们建议保持默认值 1%。 我们的模拟结果表明,如果所有数据点都服从正态分布,Prism 将在约 2-3% 的实验中错误地发现一个或多个异常值。这并不意味着所有值中有几个百分比会被判定为异常值,而是指在少数百分比的实验中会检测到一个或多个异常值。如果数据中确实存在异常值,Prism 检测它们时的错误发现率将低于 1%。

非等权重、稳健回归与异常值剔除

正如我们在参考文献 1 中所解释的,不均匀加权在稳健回归中并无用处。问题在于,异常值可能会获得过高的权重。稳健回归本质上是应用差异权重,因此再添加另一种加权方案就没有意义了。

因此,若同时选择非等权重和稳健拟合,Prism 将默认采用等权重进行拟合。但在生成残差表时,它会使用您设定的权重方案。

若同时选择非等权重和自动异常值剔除,Prism将首先采用稳健回归进行拟合(忽略您的权重选择)。如参考文献1所述,在识别异常值时,系统会使用加权因子。随后,系统会对已剔除异常值的数据执行加权非线性回归。

参考文献                                                                         

1.Motulsky HM 和 Brown RE,《使用非线性回归拟合数据时检测异常值 - 基于稳健非线性回归和错误发现率的新方法》,BMC Bioinformatics 2006, 7:123