Please enable JavaScript to view this site.

Navigation: 统计学原理 > 假设检验和统计学显著性

假发现率和统计学显著性

Scroll Prev Top Next More

对较低的P值进行解读并非易事

假设您正在筛选药物,以确定它们是否能降低血压。您采用通常的阈值 P<0.05 来定义统计学显著性。根据您预期的数据离散程度以及您所关注的最小变化幅度,您已确定每个实验的样本量,以确保在 P 值小于 0.05 的条件下,具有 80% 的功效来检测您所寻找的差异。

如果确实得到了小于0.05的P值,那么该药物真正有效的概率是多少?

答案是:这取决于实验的具体背景。让我们先考虑这样一种情况:根据研究背景,您估计该药物实际有效的概率为10%。如果进行1000次实验,会发生什么?基于10%的估计值,下表中两列的总和分别为100和900。 由于功效为80%,您预期80%的真正有效药物在实验中会产生小于0.05的P值,因此左上角单元格的数值为80。由于您将统计学显著性的定义设为0.05,您预期5%的无效药物会产生小于0.05的P值,因此右上角单元格的数值为45。  

 

药物确实有效

药物确实无效

总计

P<0.05,“显著”

80

45

125

P>0.05,“无统计学意义”

20

855

875

总计

100

900

1000

总的来说,您预计会有125项实验得出“统计学显著”的结果,而其中只有80项是药物真正起效。 其余45项实验虽得出“统计学显著”的结果,但实为假阳性或错误发现。错误发现率(简称FDR)为45/125,即36%。不是5%,而是36%。这也被称为假阳性率(FPR)。

下表摘自《生物统计学精要》第12章,展示了该情景及其他三种情景的FDR。


先验概率

P<0.05时的FDR

0.045 < P < 0.050 时的 FDR

临床试验中治疗前对随机分组进行比较

0%

100%

100%

测试一种可能有效的药物

10%

36%

78%

测试一种成功几率为五五开的药物

50%

6%

27%

阳性对照

100%

0%

0

 

上表中的每一行对应一种不同的情景,这些情景由不同的先验概率(即在收集数据之前)定义,即存在真实效应的概率。中间一列显示了如上所述计算出的预期FDR(也称为FPR)。该列回答了以下问题:“如果P值小于0.05,那么实际不存在效应、结果仅仅是随机抽样所致的情况有多大概率?” 请注意,这个答案并非5%。FDR与用于定义统计学显著性的阈值P值α有很大不同。

右侧一列基于模拟结果,根据 Colquhoun(1,2) 的研究提出了一个略有不同的问题:“如果 P 值仅略低于 0.05(介于 0.045 至 0.050 之间),那么实际不存在效应、结果仅由随机抽样造成的概率是多少?”这些数值要高得多。 请关注第三行,其中先验概率为50%。在此情况下,如果P值仅略低于0.05,则有27%的概率表明该效应是偶然造成的。 注意:是27%,不是5%!而在更具探索性的情境中,若您认为先验概率为10%,那么P值仅略低于0.05时的错误发现率高达78%。这种情况下,一个(按传统定义的)统计学显著结果几乎毫无意义。  

结论:您不能脱离具体情境来解读统计显著性(或P值)。您的解读依赖于实验的具体背景。错误发现率可能远高于α值(通常为5%)。解释结果需要常识、直觉和判断力。

参考文献

1.Colquhoun, D. (2014). 关于错误发现率与P值误解的探讨。《皇家学会开放科学》,1(3),140216–140216。http://doi.org/10.1098/rsos.140216

2.Colquhoun, D (2019). 假阳性风险:关于p值处理的建议。《美国统计学家》,第73卷,增刊1。