对较低的P值进行解读并非易事
假设您正在筛选药物,以确定它们是否能降低血压。您采用通常的阈值 P<0.05 来定义统计学显著性。根据您预期的数据离散程度以及您所关注的最小变化幅度,您已确定每个实验的样本量,以确保在 P 值小于 0.05 的条件下,具有 80% 的功效来检测您所寻找的差异。
如果确实得到了小于0.05的P值,那么该药物真正有效的概率是多少?
答案是:这取决于实验的具体背景。让我们先考虑这样一种情况:根据研究背景,您估计该药物实际有效的概率为10%。如果进行1000次实验,会发生什么?基于10%的估计值,下表中两列的总和分别为100和900。 由于功效为80%,您预期80%的真正有效药物在实验中会产生小于0.05的P值,因此左上角单元格的数值为80。由于您将统计学显著性的定义设为0.05,您预期5%的无效药物会产生小于0.05的P值,因此右上角单元格的数值为45。
|
药物确实有效 |
药物确实无效 |
总计 |
|---|---|---|---|
P<0.05,“显著” |
80 |
45 |
125 |
P>0.05,“无统计学意义” |
20 |
855 |
875 |
总计 |
100 |
900 |
1000 |
总的来说,您预计会有125项实验得出“统计学显著”的结果,而其中只有80项是药物真正起效。 其余45项实验虽得出“统计学显著”的结果,但实为假阳性或错误发现。错误发现率(简称FDR)为45/125,即36%。不是5%,而是36%。这也被称为假阳性率(FPR)。
下表摘自《生物统计学精要》第12章,展示了该情景及其他三种情景的FDR。
先验概率 |
P<0.05时的FDR |
0.045 < P < 0.050 时的 FDR |
|
|---|---|---|---|
临床试验中治疗前对随机分组进行比较 |
0% |
100% |
100% |
测试一种可能有效的药物 |
10% |
36% |
78% |
测试一种成功几率为五五开的药物 |
50% |
6% |
27% |
阳性对照 |
100% |
0% |
0 |
上表中的每一行对应一种不同的情景,这些情景由不同的先验概率(即在收集数据之前)定义,即存在真实效应的概率。中间一列显示了如上所述计算出的预期FDR(也称为FPR)。该列回答了以下问题:“如果P值小于0.05,那么实际不存在效应、结果仅仅是随机抽样所致的情况有多大概率?” 请注意,这个答案并非5%。FDR与用于定义统计学显著性的阈值P值α有很大不同。
右侧一列基于模拟结果,根据 Colquhoun(1,2) 的研究提出了一个略有不同的问题:“如果 P 值仅略低于 0.05(介于 0.045 至 0.050 之间),那么实际不存在效应、结果仅由随机抽样造成的概率是多少?”这些数值要高得多。 请关注第三行,其中先验概率为50%。在此情况下,如果P值仅略低于0.05,则有27%的概率表明该效应是偶然造成的。 注意:是27%,不是5%!而在更具探索性的情境中,若您认为先验概率为10%,那么P值仅略低于0.05时的错误发现率高达78%。这种情况下,一个(按传统定义的)统计学显著结果几乎毫无意义。
结论:您不能脱离具体情境来解读统计显著性(或P值)。您的解读依赖于实验的具体背景。错误发现率可能远高于α值(通常为5%)。解释结果需要常识、直觉和判断力。
参考文献
1.Colquhoun, D. (2014). 关于错误发现率与P值误解的探讨。《皇家学会开放科学》,1(3),140216–140216。http://doi.org/10.1098/rsos.140216
2.Colquhoun, D (2019). 假阳性风险:关于p值处理的建议。《美国统计学家》,第73卷,增刊1。