Please enable JavaScript to view this site.

Navigation: 统计学原理 > 概述

不要做 P-hacker

Scroll Prev Top Next More

概览

维克斯讲述了这个故事 (1):

统计学家:“哦,所以您已经计算出P值了吗?”

外科医生:“是的,我用了多项式逻辑回归。”

统计学家:“真的吗?您是怎么得出这个结论的?”

外科医生:“嗯,我试了SPSS下拉菜单里的每种分析方法,结果这个给出的P值最小。”

统计学的基本规则

要使统计分析结果能够被直观解读,必须满足以下三个条件:

所有分析均经过预先规划。

所有预先规划的分析均完全按计划执行并如实报告。

在解释结果时,需将所有分析纳入考量。

如下文所述,这些简单而合理的规则常以多种方式遭到违反。

数据预处理的多种方式

在分析数据之前,需要做出一些决定。哪些数值因过高或过低而被视为错误,因此应被删除?是否需要标准化以及如何标准化?是否需要转换数据以及如何转换?

序贯分析(临时样本量确定)

要正确解读 P 值,必须预先设定实验方案。通常这意味着先确定样本量,收集数据,然后进行分析。

但如果结果在统计学上并不十分显著呢?人们往往会忍不住想再进行几次实验(或增加几个受试者),然后利用更大的样本量重新分析数据。如果结果仍然不“显著”,那就再进行几次实验(或增加更多受试者),并再次进行分析。

当数据以这种方式进行分析时,解释结果将无法正确进行。这种非正式的序贯方法不应被采用。

如果“无差异”的零假设确实成立,那么采用这种非正式的序贯方法获得“统计学显著”结果的概率将远高于5%。事实上,如果持续采用这种方法足够长时间,那么即使零假设成立,最终每个实验都会得出“显著”的结论。当然,“足够长时间”可能确实非常漫长,甚至超出您的预算或您的寿命。

问题在于:当结果不“显著”时实验会继续,但一旦结果“显著”便会停止。如果实验在达到“显著性”后继续进行,增加更多数据可能会得出“不显著”的结论。 但您永远无法得知这一点,因为一旦达到“显著性”,实验就会终止。如果您在不喜欢结果时继续进行实验,而在喜欢结果时停止实验,那么这些结果将无法被正确解读。

统计学家已开发出严谨的方法来处理序贯数据分析。这些方法采用更为严格的标准来定义“显著性”,以适应序贯分析的特点。若没有这些特殊方法,除非样本量预先设定,否则无法解读结果

多个亚组

分析多个数据亚组属于多重比较的一种形式。当某种治疗在某些亚组有效而在其他亚组无效时,亚组分析便成为多重比较的一种形式,且极易导致误判。

Lee 及其同事的一项模拟研究指出了这一问题。他们假装比较针对冠状动脉疾病的两种“治疗”方案后的生存情况。他们研究了一组真实的冠状动脉疾病患者,并将他们随机分为两组。 在真实研究中,他们本应给两组患者不同的治疗方案,并比较生存率。而在这项模拟研究中,他们对受试者进行了相同的治疗,但分析数据时却假设这两个随机分组实际上代表了两种不同的治疗方案。正如预期的那样,两组的生存率无法区分(2)。

随后,他们根据患者是否患有单支、双支或三支冠状动脉病变,以及心室收缩功能是否正常,将患者分为六组。鉴于这些变量预计会影响患者的生存率,因此分别评估这六个亚组对“治疗”的反应是合理的。虽然他们在其中五个亚组中未发现显著差异,但在病情最严重的患者中却发现了惊人的结果。 对于同时患有三支血管病变且心室收缩功能受损的患者,接受治疗B的生存率远高于接受治疗A的患者。两条生存曲线之间的差异在统计学上具有显著性,P值小于0.025。

如果这是一项真实的研究,人们很可能会得出结论:对于病情最严重的患者,治疗方案B更优,并建议未来对这类患者采用治疗方案B。但这并非真实研究,所谓的两种“治疗方案”仅反映了患者的随机分组。由于两种治疗方案完全相同,因此观察到的差异绝对是偶然造成的。

作者在六项比较中发现一项P值较低,这并不令人意外。即使所有零假设都成立,六项独立比较中仍有一项P值小于0.05的概率为26%。

如果所有亚组比较都是预先定义的,那么在分析过程中或解释结果时,可以对多次比较进行校正。但当这种亚组分析未预先定义时,它便会变成一种“数据折磨”。

多重预测

2000年,政府间气候变化专门委员会(IPCC)对未来气候作出了预测。皮尔克提出了一个看似简单的问题:在随后的七年里,这些预测的准确性如何?虽然七年时间不足以对全球变暖的预测进行严肃评估,但这是必要的第一步。然而,回答这个问题被证明是不可能的。 问题在于,该报告包含大量预测,却未明确应采用哪些气候数据源。这些预测是否应验了?答案取决于您选择验证哪项预测,以及用哪组数据集进行验证 - 这简直是“数据捡漏者的盛宴”(3)

只有当预测明确说明了预测的内容及其发生时间时,才能评估预测或诊断的准确性。

合并组别

在比较两个组别时,必须在研究设计中明确界定这些组别。如果组别是由数据本身定义的,则会隐含地进行许多比较,最终结果将无法被解读。

奥斯汀和戈德瓦瑟曾对此问题进行过论证(4)。他们研究了加拿大安大略省因心力衰竭住院的发病率,将患者按星座(基于出生日期)划分为十二组。 双鱼座出生的人群恰好心力衰竭发病率最高。随后,他们进行了一项简单的统计检验,比较双鱼座出生人群与其他所有人群(即其余十一星座出生者合并为一组)的心力衰竭发病率。仅从表面看,这一比较表明发病率差异极不可能由偶然因素造成(P值为0.026)。 与其他十一星座出生的人相比,双鱼座人群的心力衰竭发病率在“统计学上显著”更高。

问题在于,研究者实际上并非只检验了一个假设,而是检验了十二个。他们在考察了所有十二个星座出生人群的心力衰竭发病率后,才将注意力集中在双鱼座上。因此,如果不考虑其他十一组隐含的比较,仅将这一组与其他组进行对比是不公平的。在对这些多重比较进行校正后,星座与心力衰竭之间不再存在显著关联。

多元回归、逻辑回归等

拟合多元回归模型为尝试多种分析提供了更多机会:

尝试纳入或排除可能的混杂变量。

尝试纳入或排除交互作用。

更改因变量的定义。

将因变量或任何独立变量转换为对数、倒数或其他形式。

除非这些决策是预先确定的,否则多重回归(或多重逻辑回归、比例风险回归)的结果不能仅凭表面意义进行解释。

《直观生物统计学》(8) 第 38 章和 Babyok (5) 都解释了这种过拟合问题。

分叉路经的花园

在某些情况下,您会先查看数据(并可能进行初步分析),然后根据这些数值决定接下来运行哪种检验。Gelman 将此称为“岔路花园”,并指出这是一种多重比较的形式 (10)。

发表偏倚

编辑倾向于发表报告具有统计学显著结果的论文。当结论为“不显著”的研究被搁置,而具有“统计学显著”结果的研究得以发表时,对已发表结果的解读便会变得棘手。这意味着,即使所有零假设均为真,在已发表的研究中观察到“显著”结果的概率仍可能远高于5%。

特纳(Turner)在针对抗抑郁药疗效的行业资助研究中,揭示了这种被称为“发表偏倚”的选择性现象(6)。1987年至2004年间,美国食品药品监督管理局(FDA)审查了74项此类研究,并将其分为“阳性”、“阴性”或“存疑”三类。 FDA评审人员发现,其中38项研究显示了阳性结果(即抗抑郁药有效)。除一项外,其余均已发表。FDA评审人员还发现,剩余的36项研究结果为阴性或存疑。其中,22项未发表;11项虽已发表,但采用了某种“包装”手法,使结果显得略带积极;而仅有3项阴性研究在发表时明确呈现了负面结论。

问题在于这是一种多重比较现象。虽然开展了大量研究,但仅有部分被发表,且这些研究之所以被选中,正是因为它们呈现了“期望”的结果。

结论

只有当所有步骤都经过规划、所有计划中的分析都已发表、且在得出结论时考虑了所有结果,统计分析才能被按字面意思解读。而在常见的统计实践中,这些简单规则却以多种方式遭到违反。

只要足够努力,从任何相当复杂的数据集中最终都能得出“统计学显著”的发现。这被称为数据折磨(6)或P-hacking(9)。  在审阅结果时,您往往甚至无法针对数据分析方式的多样性进行校正,因为可能的比较数量并未预先定义,且几乎是无限的。当结果未经规划就被以多种方式分析时,这些结果根本无法被解读。最好的情况是,您可以将这些发现视为一种假设,供未来利用新数据进行验证。

 

参考文献

1. Vickers, A., 《P值究竟是什么》,2009年。ISBN: 978-0321629302。

2. Lee, K. L., J. F. McNeer, C. F. Starmer, P. J. Harris, and R. A. Rosati. 1980. 《临床判断与统计学:冠心病模拟随机试验的启示》。《循环》61卷,第3期(3月):508-15

3. 皮尔克,R. 《普罗米修斯:气候科学中的预报验证,第3部分》。2008年4月20日检索。

4. 奥斯汀(P. C. Austin)与戈德瓦瑟(M. A. Goldwasser)。2008。《双鱼座组未出现心力衰竭增加:基于数据的分类变量水平间二元比例比较可能导致错误的统计学显著水平》。《临床流行病学杂志》61卷,第3期(3月):295-300。

5. 巴比亚克,M.A.。《所见未必即所得:回归型模型过拟合的简明非技术性导论》。《心身医学》(2004)第66卷(3期),第411页

6. Mills, J. L. 1993. 数据折磨。《新英格兰医学杂志》329, (16): 1196.

7. Turner, E. H., A. M. Matthews, E. Linardatos, R. A. Tell, and R. Rosenthal. 2008. 抗抑郁药试验的选择性发表及其对表面疗效的影响。《新英格兰医学杂志》358, (3) (1月17日): 252-60.

8. 莫图尔斯基,H.J.(2010)。《直观生物统计学》,第2版。牛津大学出版社。ISBN=978-0-19-973006-3。

9. 西蒙斯,J. P.,尼尔森,L. D. 及 西蒙森,U. 《假阳性心理学:数据收集与分析中未披露的灵活性使得任何结果都能被呈现为显著》。《心理科学》22, 1359–1366 (2011)。

10. Gelman, A., & Loken, E. (2013). 《岔路花园:为何多重比较可能成为问题,即使不存在“钓鱼式研究”或“P-hacking”,且研究假设是预先设定的》。2014年1月30日下载。