Grubbs 检验和 ROUT 异常值检验都基于这样一个假设:除潜在的异常值外,数据均来自高斯分布。
但如果底层分布并非高斯分布呢?那么这些异常值检验就会产生误导。一种常见的情况是从对数正态分布中抽样。
下图展示了四个从对数正态分布中抽取的数据集。

其中三个数据集似乎包含异常值,事实上,Grubbs 异常值检验确实在这三个数据集中识别出了异常值。
但这些数据并非采样自包含异常值的高斯分布,而是采样自对数正态分布。将所有数值转换为对数后,分布便变成了高斯分布:

那些看似异常的点消失了。Grubbs 检验未发现异常值。这些极端点之所以看似异常,是因为极大的数值在对数正态分布中很常见,但在高斯分布中却很少见。如果未能意识到该分布是对数正态分布,异常值检验的结果将极具误导性。