Navigation: 统计学原理 > 异常值
建议:警惕手动识别异常值
一种常见的做法是目视检查数据,并手动剔除异常值。这种方法的问题在于其主观性。人们很容易保留那些有助于数据得出自己期望结论的数据点,同时剔除那些阻碍数据得出自己期望结论的数据点。
上图是通过模拟生成的。这十组数据集中的数值均通过随机抽样从一个均值为50、标准差为15的高斯分布中获取。但大多数人会认为数据集A中的最小值是异常值,或许数据集J中的最大值也是。大多数人无法理解随机波动,往往会过频地发现“异常值”。