Please enable JavaScript to view this site.

Navigation: 统计学原理 > 分析核查清单

分析核查清单:异常值

Scroll Prev Top Next More

如果异常值检查将一个或多个值识别为异常值,请自问以下问题:

输入到计算机中的异常值是否录入有误?

如果所谓的“异常值”实际上是输入错误,请予以更正。此时,务必回到原始数据源,核对输入到 Prism 中的异常值是否确实是您从实验中获得的数值。如果该数值是计算结果,请检查是否存在数学错误。

该异常值在科学上是否不可能?

当然,当数值完全不合常理时,您应将其从数据中剔除为异常值。例如负重值,或超过150岁的人体年龄。这些显然是错误的,若将错误值保留在分析中,将导致毫无意义的结果。

高斯分布的假设是否存疑?

Grubbs 检验和 ROUT 检验都假设所有值均来自高斯分布,可能仅有一个(或几个)来自不同分布的异常值除外。如果基础分布并非高斯分布,那么异常值检验的结果便不可靠。尤其需要注意对数正态分布。如果数据来自对数正态分布,则预期会发现一些极高的数值,这些数值很容易被误认为是异常值。 剔除这些数值将是一个错误。

该异常值是否具有潜在的科学意义?

如果每个数值来自不同的动物或人,识别出异常值可能至关重要。仅仅因为某个数值与其他数值不属于同一个高斯分布,并不意味着它应该被忽略。您可能发现了一个基因的多态性,或者一种新的临床综合征。在确定该发现是否具有潜在的科学价值之前,不要将其作为异常值而丢弃。

您的实验记录本是否记录了该数值相关的任何实验问题

当某数据点不仅被异常值检测标记为“异常值”,且您在实验过程中已记录该数据存在问题时,将其从数据集中剔除的理由便更具说服力。

您是否有关于何时剔除异常值的政策?

理想情况下,剔除异常值不应是临时起意的决定。您应遵循既定政策,并始终如一地执行该政策。

如果您正在寻找两个或更多异常值,掩蔽效应是否会成为问题?

掩蔽效应是指当存在两个(或更多)异常值时,会使发现单个异常值变得更加困难的现象。

如果您对所有这些问题都回答“否”……

如果您对上述所有问题都回答“否”,则有两种可能:

该可疑值与其他值来自同一个高斯总体。您只是碰巧采集到了该高斯分布尾部的一个值。

该可疑值来自与其他值不同的分布。这可能是操作失误造成的,例如移液不准确、电压尖峰、滤膜破损等。  

如果您确定是第一种情况,则应将该值保留在分析中。将其剔除将是错误的。

如果您确定是第二种情况,则应将其剔除,因为将错误值纳入分析会导致结果失效。

当然,问题在于您永远无法确切知道哪种情况是正确的。异常值检验无法对此给出确切答案。理想情况下,您应该制定一项实验室政策来处理此类数据,并始终如一地遵循它。

如果您没有关于剔除异常值的实验室政策,这里有一个建议:分别在包含和不包含可疑异常值的情况下分析数据。如果两种情况下的结果相似,您就得到了明确的结论。如果结果差异很大,那么您就陷入了困境。如果没有关于何时剔除异常值的一致政策,您很可能只会在剔除有助于将数据导向您期望结果时才进行剔除。