让我们设想一下,如果进行大量比较,并判断每个结果是否“显著”,会发生什么情况。同时假设我们就是“大自然”,因此知道数据采样所依据的总体中是否真的存在差异。
在下表中,第一行代表在零假设成立(即干预措施确实无效)情况下的比较结果。尽管如此,某些比较仍会错误地得出“显著”的结论。第二行显示了确实存在差异时的比较结果。即便如此,您也不会每次实验都得到“显著”的结果。
A、B、C 和 D 代表比较的次数,因此 A+B+C+D 的和等于您进行的比较总数。您无法根据实验数据制作此表,因为该表是对多个实验的概览。
“显著” |
“不显著” |
总计 |
|
无差异。 零假设成立 |
A |
B |
A+B |
确实存在差异 |
C |
D |
C+D |
总计 |
A+C |
B+D |
A+B+C+D |
在上表中,α 是 A/(A+B) 的期望值。若将 α 设为通常的 0.05,这意味着当零假设为真(即 A+B)时,您预期所有比较中有 5% 具有统计学显著性(见第一列)。因此,您预期 A/(A+B) 等于 0.05。
纠正多重比较的常规方法是设定更严格的阈值来定义统计学显著性。其目标是设定一个严格的显著性定义,使得 - 若所有零假设均为真 - 仅凭偶然性获得一个或多个“统计学显著”结果的概率仅为5%,从而确保95%的概率下,没有任何一次比较会得出“统计学显著”的结论。 该5%的错误率适用于整个实验,因此有时被称为实验整体错误率或家族错误率(二者是同义词)。
设定更严格的统计学显著阈值,可以确保您极少会被“统计学显著”的错误结论所误导。但这一优势是有代价的:您的实验在检测真实差异方面的功效会降低。
Bonferroni、Tukey、Dunnett、Dunn、Holm(以及其他)的方法均采用这种策略。