Please enable JavaScript to view this site.

异常值的问题

非线性回归与线性回归一样,都假设数据在理想曲线周围的分布服从高斯分布或正态分布。这一假设导致了回归分析中众所周知的目标:使数据点与曲线之间垂直距离(即 Y 值距离)的平方和最小化。然而,实验误差可能会导致错误值 - 即异常值。即使只有一个异常值,也可能主导平方和的计算,从而导致误导性的结果。

剔除异常值算“作弊”吗?

有些人认为剔除异常值是“作弊”。当异常值被随意剔除时,尤其是仅剔除那些妨碍获得理想结果的异常值时,确实可以这样看待。但将异常值保留在分析数据中同样是“作弊”,因为这可能导致无效结果。

以下是一种贝叶斯视角,用于思考系统性去除异常值的策略。当某个值被标记为异常值时,存在两种可能性。

发生了偶然事件 - 即使整个数据分布呈高斯分布,这种偶然事件在少数百分比的实验中仍会发生(具体取决于您对异常值的定义严格程度)。

数据中混入了“错误”数据点。

哪种可能性更大?

这取决于您的实验系统。

如果您的实验系统在几百分之一的实验中会产生一个“坏”数据点,那么将其作为异常值剔除是合理的。它更可能是“坏”数据点,而非一个“好”数据点恰巧远离曲线。

如果您的系统非常纯净且受控,因此“坏”数据点极少出现,那么该点远离曲线更可能是偶然(而非错误)造成的,您应该保留它。或者在这种情况下,您可以将 Q 值设得更低,以便只检测那些距离曲线更远的异常值。