Please enable JavaScript to view this site.

Navigation: 统计学原理 > 统计检验力

关键概念:统计检验力

Scroll 前一页 Top 后一页 More

检验“检验力”实际上意味着什么?

开展一项实验时,通常关注部分效应的衡量:药物治疗组的蛋白浓度是否不同于对照组;相比于野生型,敲除菌株中的中位存活时间是否更长;不同治疗组之间的基因表达是否不同?

在实验中,使用来自不同总体的样本收集数据并执行统计分析。具体理念如下:如果总体中确实存在您正在寻找的效应,则您会(希望)在样本中观察到该效应。但总体中存在变异性,并非总能确定:能够在采集自广泛总体的样本中检测目标效应。

简言之,在采用经典假设检验方法的分析中,首先检验无效应的零假设以及有效应的备择假设。在上述场景中,我们假设总体中确实存在该效应。但出于偶然原因,您所选样本生成的数据并未反映出该效应。换言之,您数据产生的P值可能大于0.05(或您用作统计与之的α值)。在此情况下,您不会拒绝零假设(无效应),即使在您抽样的总体中确实存在该效应,亦如此!

检验“检验力”是指当零假设不成立时,您拒绝零假设的概率。换言之,检验力是指当您从总体中寻找效应时,您拒绝零假设的概率。回想下我们提供的示例:我们一开始就声明总体中确实存在该效应,但由于总体变异性以及从这些总体中随机抽样,因此也可能未观察到该效应。基于检验力,我们能够获悉观察到效应的概率,并取决于多种因素,其中包括总体中的效应量规模、从总体中抽取的样本量以及总体变异性。

换一种方式思考检验力:开展无限数量的实验

假设使用t检验比较两个均值,且两个总体的均值相差特定量。首先,我们从两个感兴趣的总体中采集样本,测量样本均值,进行t检验,并获得P值。由于我们抽样的总体存在变异性,该P值既可能大于α(通常取0.05),也可能小于α。

但现在,让我们假设我们从总体中采集样本,并再次运行检验。受变异性和抽样方式的影响,样本值可能略有不同,t检验也会得出不同结果。新检验获得不同的P值,可能(再次)大于或小于α。

此时,我们假设反复执行该过程。计算到的部分P值将小于α,我们将拒绝零假设,计算到的另一部分P值将大于α,我们不会拒绝零假设。首先,我们声明总体的均值存在差异,因此,如果我们(使用从同一总体中采集的同一尺寸的样本)运行同一实验,则在部分实验中,P值将小于我们设定的阈值。如果重复运行实验无限次,则实验的检验力等于P值小于阈值的实验百分比。

请注意,在现实生活中,无法做到这一点,原因如下:

1.时间或资源不足以支撑我们开展无限数量的实验

2.更重要的是,我们不知道抽样总体中是否确实存在该效应。如果我们已经知道存在效应,则运行这些实验的意义不大!

检验力(和β)的其他技术定义

通常,从总体中抽取样本时,目标是从中确定一些统计量(均值、标准差等)。.另一种类型的统计结果可能是两份样本的均值差。除此之外,还存在一种统计量,即,样本均值差除以两份样本的合并标准差。最后一项统计量实际上是t检验中使用的t统计量。

由于您从较大总体中抽取样本,而该总体具有变异性,因此,不论计算哪项统计量,都可能存在一系列可能的值。如果抽取很多不同样本,几乎肯定会得到很多不同的统计量值。可通过“抽样分析”,给出该统计量的可能取值分布。当关注某些统计量,以确定不同总体之间是否存在预测效应时,统计量的可能取值分布也在很大程度上取决于是否真实存在该效应。

幸运的是,掌握足够总体和预测效应信息后,能够为假设存在效应和假设不存在效应的统计量,构建抽样分布。在此,我们介绍一个有关t统计量的示例:

蓝色曲线是指假设不存在效应的抽样分布。请注意,分布的中心点在0处,如果无效应,这种做法十分有用。然而,受总体变异性以及从总体中抽取样本这一事实的影响,即使不存在效应,仍然有可能获得大于或小于零的t统计量。

红色曲线是指假设确实存在特定预测效应的抽样分布。在此情况下,分布的中心点大致在2.5处。原因在于,如果存在预测效应,则所确定的t统计量远离零的可能性更大(但并非不可能为零)。

在实验中,从这些总体中抽取样本并计算t统计量时,将该t统计量与“临界值”进行比较,以确定获得的结果是否具有统计显著性。可使用这些曲线直观显示该结果。下图所示为零假设的抽样分布(蓝色曲线,无效应)以及临界t值(垂直线):

阴影区域表示零假设为真时,t统计量值大于临界值的的概率。在本例中,阴影区域等于该曲线下总面积的5%。即α概念的图示表达,其中,α是指零假设实际上为真时,拒绝零假设的概率。所用α不同,获得的临界值也有所不同,并将在阴影区域获得不同的曲线量。

以类似方式,可将临界值与红色曲线组合使用:

在本例中,阴影区域表示备择假设为真时,t统计量值小于临界值的的概率。就此而言,阴影区域等于该曲线下总面积的20%。即β概念的图示表达,其中,β是指当零假设不成立(II型误差)时未能拒绝零假设的概率。换言之,β是指某效应实际存在但检测到的概率。您可能注意到,α(I型误差的发生概率)比β(II型误差的发生概率)小4倍,这些值十分常见。关于该问题,其中一种思考方式是:使用这些值时,意味着避免I型误差(假阳性)比II型误差(假阴性)重要4倍。

检验力实际上直接来自β:

检验力=1-β

因此,在上述示例中,β为0.20,检验力等于0.8或80%。类似于α和值0.05,该值仅为检验力的常用值,并非严格要求。最终,作为研究人员的您,可在设计实验时决定想要获得什么检验力值。有关这一点的更详细讨论,请参见下一节。

通过综合考虑上述图像和信息,可以得到以下内容:

Alpha(α):I型误差的概率(拒绝成立的零假设,即“假阳性”),通常为0.05或5%

Beta(β):II型误差的概率(未拒绝不成立的零假设,即“假阴性”),通常为0.2或20%

检验力(1-β):拒绝不成立(当效应真实存在时)的零假设的概率,通常为0.8或80%

需要多少检验力?

检验力是指:假设抽样总体中确实存在所研究的效应,实验通过样本产生“统计学显著”结果的概率。需要多少检验力?这些指导方针可能有用:

如果某项实验的检验力<50%,则仅当一半实验中存在目标效应时,才能检测到。具有此类检验力的研究的作用不大,而且(甚至)不太可能重现

许多研究者通过选择样本量来获得80%的检验力。这是任意指定,但常用

理想情况下,应根据产生II型误差的后果,选择可接受的检验力。

Prism检验力分析

Prism Cloud对可各种实验设计进行检验力分析(及样本量计算)。

© 1995-2019 GraphPad Software, LLC. All rights reserved.