在分析数据时,您有时会发现有一个值与其他值相差甚远。这样的值被称为异常值,这个术语通常没有严格的定义。
遇到异常值时,你可能会想把它从分析中删除。首先,问自己以下问题:
•输入计算机的值是否正确?如果数据录入有误,请纠正错误。
•该值是否存在实验问题?例如,如果您注意到有一个试管看起来很滑稽,您就可以以此为由排除该试管得出的数值,而无需进行任何计算。
•异常值可能是生物多样性造成的吗?如果每个值都来自不同的人或动物,异常值可能是一个正确的值。它之所以是异常值,不是因为实验错误,而是因为该个体可能与其他个体不同。这可能是数据中最令人兴奋的发现!
如果您对所有三个问题的回答都是 "否",那么您将面临两种可能性。
•异常值是偶然造成的。在这种情况下,您应该在分析中保留该值。该值与其他值来自相同的分布,因此应该包括在内。
•异常值是由于错误造成的:移液不当、电压尖峰、过滤器上的孔洞等。由于将错误值纳入分析会导致结果无效,因此应将其删除。换句话说,该值与其他值来自不同的群体,具有误导性。
当然,问题在于你永远无法确定哪种可能性是正确的。
有些统计检验的设计使结果不会因一个或几个异常值的存在而有太大的改变。这类检验被称为稳健检验。使用稳健方法时,想要排除异常值的理由就更少了。
大多数非参数检验都是比较等级分布。这使得检验具有稳健性,因为最大值具有最大秩,但该值有多大并不重要。
其他检验对异常值很稳健,因为它们不是假设高斯分布,而是假设一个更宽的分布,在这个分布中异常值更常见(所以影响较小)。