GraphPad Prism 11 Statistics Guide - P 值的可重复性如何？（并不好）

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: 统计学原理 > P 值

P 值的可重复性如何？（并不好）

Scroll Prev Top Next More

P值的可重复性远低于您的预期。

如果零假设成立，那么P值的分布是均匀的。一半的P值将小于0.50，5%的P值将小于0.05，以此类推。

但如果零假设是错误的呢？大多数人会认为，在这种情况下P值应该具有相当高的可重复性。事实并非如此。

为了说明这一点，我使用GraphPad Prism进行了一些模拟。我从两个标准差均为5.0的高斯总体中进行抽样。这两个总体的均值相差5.0。以下是四次模拟实验的结果。这四次实验仅在随机抽样方面有所不同。这四个P值却存在显著差异。

下图展示了2,500次此类模拟实验中P值的分布情况。X轴绘制了P值的各种数值，Y轴则显示了该数值范围在2,500次模拟实验中出现的频率。

若剔除最高和最低的2.5%的P值，中间95%的P值范围从0.0001517到0.6869 - 这一范围跨越了三个数量级以上！

在这些模拟中，P值的中位数约为0.05。我还进行了标准差较小的模拟，这当然导致P值变小，但其范围仍覆盖了超过三个数量级。

这些模拟的灵感源自Boos和Stefanski (1)，他们通过多种情境的模拟证明，重复模拟实验所得的P值会跨越超过三个数量级的范围。

Cumming (2) 提出了一个问题：如果某次特定实验的 P 值等于 0.05，那么重复实验的 P 值可能是什么（仅考虑随机抽样，并假设两次实验均无故障）。令人惊讶的是，结果并不依赖于样本量。当然，重复实验的P值大于0.05的概率为50%。但令人惊讶的是（我认为），重复实验的P值大于0.38的概率为20%，大于0.82的概率则高达5%。

在分析数据时，有许多理由不应依赖P值。本页表明，除了避免使用P值的各种概念性理由之外，还有一个非常实际的理由：P值的可重复性并不高。

上图摘自《直观生物统计学》第三版的图15.1。

1. Boos, D. D. & Stefanski, L. A. 《P值的精确度与可重复性》。《美国统计学家》65, 213–221 (2011)。

2. Cumming, G. 《重复验证与p区间：p值对未来的预测仅是模糊的，但置信区间表现得更好》。《心理科学展望》3, 286–300 (2008)。

Please enable JavaScript to view this site.