GraphPad Prism 11 Curve Fitting Guide - 何时使用自动异常值删除

何时使用自动异常值删除

异常值的问题

非线性回归与线性回归一样，都假设数据在理想曲线周围的分布服从高斯分布或正态分布。这一假设导致了回归分析中众所周知的目标：使数据点与曲线之间垂直距离（即 Y 值距离）的平方和最小化。然而，实验误差可能会导致错误值 - 即异常值。即使只有一个异常值，也可能主导平方和的计算，从而导致误导性的结果。

有些人认为剔除异常值是“作弊”。当异常值被随意剔除时，尤其是仅剔除那些妨碍获得理想结果的异常值时，确实可以这样看待。但将异常值保留在分析数据中同样是“作弊”，因为这可能导致无效结果。

以下是一种贝叶斯视角，用于思考系统性去除异常值的策略。当某个值被标记为异常值时，存在两种可能性。

•发生了偶然事件 - 即使整个数据分布呈高斯分布，这种偶然事件在少数百分比的实验中仍会发生（具体取决于您对异常值的定义严格程度）。

•数据中混入了“错误”数据点。

哪种可能性更大？

这取决于您的实验系统。

如果您的实验系统在几百分之一的实验中会产生一个“坏”数据点，那么将其作为异常值剔除是合理的。它更可能是“坏”数据点，而非一个“好”数据点恰巧远离曲线。

如果您的系统非常纯净且受控，因此“坏”数据点极少出现，那么该点远离曲线更可能是偶然（而非错误）造成的，您应该保留它。或者在这种情况下，您可以将 Q 值设得更低，以便只检测那些距离曲线更远的异常值。