Please enable JavaScript to view this site.

Navigation: 统计学原理 > 概述

统计学的基本概念

Scroll Prev Top Next More

如果您对某个主题了解十二个概念,在只了解两三个概念的人眼里,您就会显得像个专家。

斯科特·亚当斯《迪尔伯特》的创作者

学习统计学时,人们很容易陷入细节的泥潭,从而忽略了全局。以下是统计推断中最重要的十二个概念。

统计学让您能够从有限的数据中得出普遍结论

推断统计学的核心目的,正是基于有限数据进行外推以得出普遍结论。“描述性统计”仅是对数据的描述,而不涉及任何普遍结论。但统计学的挑战与难点,恰恰在于如何从有限数据中得出普遍结论。

统计学并非直观的

“直观”一词有两层含义。其一指“易于使用和理解”,这正是我撰写《直观生物统计学》时的目标。而“直观”的另一层含义则是“本能的,或是在缺乏理性依据的情况下,仅凭主观感觉行事”。若采用这一定义,统计推理便远非直观。在思考数据时,直觉往往会误导我们。 人们常在随机数据中看到规律,并往往因此得出缺乏依据的结论。要从数据中得出有效的结论,必须具备统计学的严谨性。

统计结论总是以概率的形式呈现

“统计学意味着永远不必说您确信无疑。”如果某项统计结论看起来确信无疑,那您很可能误解了某些内容。统计学的全部意义在于量化不确定性。

所有统计检验都基于一系列假设

每次统计推断都基于一系列假设。在审阅完这些假设之前,切勿试图解读任何统计结果。每项统计计算背后的基本假设是:数据是通过随机抽样方式收集的,或者至少能代表本可收集到的更大样本总体。如果您的数据不能代表本可收集(但未收集)的更大数据集,那么统计推断就毫无意义。

关于如何分析数据的决策应预先确定

数据分析需要做出许多决策。采用参数和非参数检验?是否剔除异常值?是否先对数据进行转换?是否参照外部控制值进行标准化?是否对协变量进行调整?回归分析中是否使用加权因子? 所有这些决策(以及更多)都应纳入实验设计之中。若在查看数据后才决定统计分析方法,统计分析极易沦为高科技版的“灵板” - 一种用来制造预定结果的手段,而非客观分析数据的方法。这种做法如今被称为P-hacking。

置信区间能量化精确度,且易于解读

假设您计算了一组收集到的值的均值,或是发生某事件的受试者比例。这些数值描述了您所分析的样本。但您抽样所依据的总体情况又如何呢?真正的总体均值(或比例)可能更高,也可能更低。95%置信区间的计算会考虑样本量和数据离散度。  在给定一系列假设的前提下,您可以有95%的把握认为该置信区间包含真实总体值(而要确切知道真实值,您只能收集无限量的数据)。 当然,95%这一数字本身并无特殊之处,仅是沿袭传统。根据所需置信度的不同,可以计算出相应的置信区间。几乎所有结果 - 比例、相对风险、优势比、均值、均值差、斜率、速率常数…… - 都应附带置信区间。

P值用于检验零假设,初看之下难以理解

P值的逻辑乍看之下似乎有些奇怪。在检验两组之间是否存在差异(均值不同、比例不同等)时,首先假设这两个总体实际上是相同的。这被称为零假设。然后问:如果零假设成立,随机抽样得到差异与实际观察到的差异一样大(甚至更大)的样本,这种可能性有多小? 如果 P 值较大,则数据与零假设一致;如果 P 值较小,则随机偶然性产生与实际观察到的差异同样大的可能性很小。这会让您质疑零假设是否成立。如果无法明确零假设,就无法解读 P 值。

“统计学显著”并不意味着该效应很大或具有重要的科学意义

如果 P 值小于 0.05(这是一个任意的、但被广泛接受的阈值),结果就被视为统计学显著。这句话听起来如此斩钉截铁。但它仅仅意味着,仅凭偶然性,您所观察到的差异(或关联、相关性……) - 甚至更大的差异 - 发生的概率不到 5%。仅此而已。 一个在科学或临床层面微不足道的微小效应,也可能具有统计学显著性(尤其在样本量较大时)。这一结论也可能有误,因为仅凭偶然性,您就有5%的概率得出“结果统计学显著”的结论。

“无显著差异”并不意味着效应不存在、微小或在科学上无关紧要

如果差异不具有统计学显著性,您可以得出结论:观察到的结果与零假设并不矛盾。请注意这里的双重否定。您不能因此得出零假设成立的结论。零假设很可能是错误的,总体之间确实存在差异。这在小样本量的情况下尤为明显。  当您需要基于这一单一结果做出决策时,将结果定义为“统计学显著”或“不统计学显著”才有意义。否则,统计学显著性的概念对数据分析几乎没有帮助。

多重比较使得统计结果难以解读

当同时检验多个假设时,多重比较问题极易导致误判。若5%的检验结果仅因偶然性而“统计学显著”,那么在检验大量假设时,便会预期出现大量“统计学显著”的结果。虽然可采用特殊方法来减少发现虚假但“统计学显著”结果的问题,但这些方法同时也增加了发现真实效应的难度。 多重比较可能具有隐蔽性。只有当所有分析都经过预先规划,且所有预定的分析都已执行并报告时,才能正确解读统计分析结果。然而,这些简单的规则却经常被打破。

相关性并不意味着因果关系

两个变量之间存在统计学显著的相关性或关联,可能表明一个变量导致了另一个变量。但也可能仅仅意味着两者都受到第三个变量的影响。或者,这可能只是巧合。

已发表的统计数据往往偏向乐观

当您阅读论文时,筛选过程早已完成。当实验成功时,科学家会继续推进该项目;而许多其他项目则被搁置。项目结束后,科学家更倾向于撰写那些取得显著成果的研究报告,或者通过多种方式反复分析数据,以得出“统计学显著”的结论。 最后,期刊更倾向于发表“阳性”研究。如果零假设成立,预计只有5%的实验会得到统计学显著的结果。但这5%的研究比其余95%更可能被发表。