P值的可重复性远低于您的预期。
如果零假设成立,那么P值的分布是均匀的。一半的P值将小于0.50,5%的P值将小于0.05,以此类推。
但如果零假设是错误的呢?大多数人会认为,在这种情况下P值应该具有相当高的可重复性。事实并非如此。
为了说明这一点,我使用GraphPad Prism进行了一些模拟。我从两个标准差均为5.0的高斯总体中进行抽样。这两个总体的均值相差5.0。以下是四次模拟实验的结果。这四次实验仅在随机抽样方面有所不同。这四个P值却存在显著差异。

下图展示了2,500次此类模拟实验中P值的分布情况。X轴绘制了P值的各种数值,Y轴则显示了该数值范围在2,500次模拟实验中出现的频率。

若剔除最高和最低的2.5%的P值,中间95%的P值范围从0.0001517到0.6869 - 这一范围跨越了三个数量级以上!
在这些模拟中,P值的中位数约为0.05。我还进行了标准差较小的模拟,这当然导致P值变小,但其范围仍覆盖了超过三个数量级。
这些模拟的灵感源自Boos和Stefanski (1),他们通过多种情境的模拟证明,重复模拟实验所得的P值会跨越超过三个数量级的范围。
Cumming (2) 提出了一个问题:如果某次特定实验的 P 值等于 0.05,那么重复实验的 P 值可能是什么(仅考虑随机抽样,并假设两次实验均无故障)。令人惊讶的是,结果并不依赖于样本量。 当然,重复实验的P值大于0.05的概率为50%。但令人惊讶的是(我认为),重复实验的P值大于0.38的概率为20%,大于0.82的概率则高达5%。
在分析数据时,有许多理由不应依赖P值。本页表明,除了避免使用P值的各种概念性理由之外,还有一个非常实际的理由:P值的可重复性并不高。
上图摘自《直观生物统计学》第三版的图15.1。
1. Boos, D. D. & Stefanski, L. A. 《P值的精确度与可重复性》。《美国统计学家》65, 213–221 (2011)。
2. Cumming, G. 《重复验证与p区间:p值对未来的预测仅是模糊的,但置信区间表现得更好》。《心理科学展望》3, 286–300 (2008)。