在分析数据时,您有时会发现某个数值与其他数值相差甚远。这样的数值被称为异常值,这个术语通常没有严格的定义。
遇到异常值时,您可能会想将其从分析中删除。首先,请自问以下问题:
•该数值是否已正确输入到计算机中?如果存在数据录入错误,请予以更正。
•该数值是否存在实验问题?例如,如果您注意到某根试管看起来有异常,就可以以此为依据排除该试管产生的数值,而无需进行任何计算。
•该异常值是否由生物多样性引起?如果每个数据点来自不同的个体(人或动物),该异常值可能是正确的。它之所以成为异常值,并非因为实验失误,而是因为该个体可能与其他个体存在差异。这可能是您数据中最令人兴奋的发现!
如果您对以上三个问题都回答“否”,那么只剩下两种可能。
•该异常值是偶然产生的。在这种情况下,您应将其保留在分析中。该值与其他值来自相同的分布,因此应予以纳入。
•异常值是由于错误造成的:移液失误、电压尖峰、滤膜破损等。由于在分析中包含错误值会导致结果无效,因此应将其剔除。换言之,该值来自与其他值不同的总体,且具有误导性。
当然,问题在于您永远无法确定哪种情况才是正确的。
某些统计检验的设计初衷是确保结果不会因一个或几个异常值的存在而发生显著变化。此类检验被称为稳健检验。当使用稳健方法时,排除异常值的必要性便大大降低。
大多数非参数检验比较的是秩的分布。这使得检验具有鲁棒性,因为最大值具有最大的秩,但该值具体有多大并不重要。
其他检验之所以对异常值具有鲁棒性,是因为它们不假设高斯分布,而是假设一种分布范围更广的分布,在该分布中异常值更为常见(因此影响较小)。