GraphPad Prism 11 Statistics Guide - 建议：不要边收集数据边检验，直到获得“显著性”

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: 统计学原理 > 假设检验和统计学显著性

建议：不要边收集数据边检验，直到获得“显著性”

Scroll Prev Top Next More

一种常用的方法会导致误导性的结果

这种方法虽颇具吸引力，但却是错误的（因此被划掉了）：

与其在研究开始前就确定样本量，不如在收集更多数据的过程中不断重复统计分析，然后：

•如果结果不具有统计学显著性，则收集更多数据并重新分析。

•如果结果统计学显著，则停止研究。

这种方法的问题在于：若不满意结果便会继续进行，而一旦满意结果便会停止。其后果是，若零假设成立，获得“显著”结果的概率将远高于5%。

通过模拟演示该问题

下图通过模拟演示了这一现象。我们从高斯分布（均值=40，标准差=15，但这些数值是任意的）中抽取值来模拟数据。两个组均采用完全相同的分布进行模拟。我们为每个组选取N=5，计算非配对t检验并记录P值。随后，我们向每个组各增加一名受试者（即N=6），重新计算t检验和P值。我们重复这一过程，直至每组样本量达到N=100。随后将整个模拟过程重复三次。这些模拟均基于两个组平均值完全相同的组别进行。因此，我们获得的任何“统计学显著”的结果都必然是偶然现象 - 即Ⅰ类错误。

该图以P值为纵坐标，样本量（每组）为横坐标。图底部的绿色阴影区域表示P值小于0.05，即被视为“统计学显著”。

实验1（绿色）在N=7时P值小于0.05，但在其他所有样本量下P值均大于0.05。实验2（红色）在N=61时，以及N=88或89时，P值均小于0.05。实验3（蓝色）的曲线在N=92至N=100时，P值均小于0.05。

如果我们采用序贯法，就会将这三项实验的结果均判定为“统计学显著”。在第一项（绿色）实验中，我们会在N=7时终止实验，因此永远不会看到其曲线中的虚线部分。我们本会在第二个（红色）实验中于N=6时终止，在第三个（蓝色）实验中于N=92时终止。在这三种情况下，我们都会宣布结果具有“统计学显著性”。

由于这些模拟是针对两组真实组平均值完全相等的值生成的，因此任何“统计学显著性”的判定都属于Ⅰ类错误。若零假设成立（两个总体均值相等），我们预计在5%的实验中会出现此类Ⅰ类错误（若采用传统定义α=0.05，即P值小于0.05被判定为显著）。但采用这种序贯方法，我们三次实验均产生了Ⅰ类错误。若将实验持续进行足够长的时间（样本量趋于无穷大），所有实验最终都会达到统计学显著性。当然，在某些情况下，即使未达到“统计学显著性”，您最终也会放弃。但这种序贯方法会在远高于5%的实验中产生“显著”结果，即使零假设为真，因此该方法是无效的。

结论

关键在于选择一个样本量并坚持到底。如果您在喜欢结果时就停止，而在不喜欢时却继续进行，您就是在自欺欺人。另一种选择是使用专门的序贯或自适应方法，这些方法会考虑到您在分析过程中逐步处理数据这一事实。要进一步了解这些技术，请查阅高级统计学书籍中关于“序贯”或“自适应”方法的内容。

Please enable JavaScript to view this site.

一种常用的方法会导致误导性的结果

通过模拟演示该问题

结论