Please enable JavaScript to view this site.

Navigation: 统计学原理 > 假设检验和统计学显著性

建议:不要边收集数据边检验,直到获得“显著性”

Scroll Prev Top Next More

一种常用的方法会导致误导性的结果

这种方法虽颇具吸引力,但却是错误的(因此被划掉了):

与其在研究开始前就确定样本量,不如在收集更多数据的过程中不断重复统计分析,然后:

如果结果不具有统计学显著性,则收集更多数据并重新分析。

如果结果统计学显著,则停止研究。

这种方法的问题在于:若不满意结果便会继续进行,而一旦满意结果便会停止。其后果是,若零假设成立,获得“显著”结果的概率将远高于5%。

通过模拟演示该问题

下图通过模拟演示了这一现象。我们从高斯分布(均值=40,标准差=15,但这些数值是任意的)中抽取值来模拟数据。两个组均采用完全相同的分布进行模拟。我们为每个组选取N=5,计算非配对t检验并记录P值。随后,我们向每个组各增加一名受试者(即N=6),重新计算t检验和P值。 我们重复这一过程,直至每组样本量达到N=100。随后将整个模拟过程重复三次。这些模拟均基于两个组平均值完全相同的组别进行。因此,我们获得的任何“统计学显著”的结果都必然是偶然现象 - 即Ⅰ类错误。

该图以P值为纵坐标,样本量(每组)为横坐标。图底部的绿色阴影区域表示P值小于0.05,即被视为“统计学显著”。

实验1(绿色)在N=7时P值小于0.05,但在其他所有样本量下P值均大于0.05。 实验2(红色)在N=61时,以及N=88或89时,P值均小于0.05。实验3(蓝色)的曲线在N=92至N=100时,P值均小于0.05。

如果我们采用序贯法,就会将这三项实验的结果均判定为“统计学显著”。在第一项(绿色)实验中,我们会在N=7时终止实验,因此永远不会看到其曲线中的虚线部分。 我们本会在第二个(红色)实验中于N=6时终止,在第三个(蓝色)实验中于N=92时终止。在这三种情况下,我们都会宣布结果具有“统计学显著性”。

由于这些模拟是针对两组真实组平均值完全相等的值生成的,因此任何“统计学显著性”的判定都属于Ⅰ类错误。若零假设成立(两个总体均值相等),我们预计在5%的实验中会出现此类Ⅰ类错误(若采用传统定义α=0.05,即P值小于0.05被判定为显著)。 但采用这种序贯方法,我们三次实验均产生了Ⅰ类错误。若将实验持续进行足够长的时间(样本量趋于无穷大),所有实验最终都会达到统计学显著性。当然,在某些情况下,即使未达到“统计学显著性”,您最终也会放弃。但这种序贯方法会在远高于5%的实验中产生“显著”结果,即使零假设为真,因此该方法是无效的。

结论

关键在于选择一个样本量并坚持到底。如果您在喜欢结果时就停止,而在不喜欢时却继续进行,您就是在自欺欺人。另一种选择是使用专门的序贯或自适应方法,这些方法会考虑到您在分析过程中逐步处理数据这一事实。要进一步了解这些技术,请查阅高级统计学书籍中关于“序贯”或“自适应”方法的内容。