如果你对某一主题知道十二个概念,那么在那些只知道两三个概念的人看来,你就是个专家。
在学习统计学时,我们很容易被细节所困扰,而忽略了全局。以下是统计推断中最重要的十二个概念。
推断统计的全部意义就在于从有限的数据中推断出一般性结论。"描述性统计 "只是简单地描述数据,而不会得出任何一般性结论。但统计的挑战性和困难之处就在于从有限的数据中得出一般性结论。
直观 "一词有两个含义。一种含义是 "易于使用和理解"。这是我撰写 直观生物统计学时的目标。直观 "的另一个含义是 "本能,或在没有理由的情况下按照自己的感觉行事"。根据这一定义,统计推理远非直观。在思考数据时,直觉往往会将我们引入歧途。人们经常会从随机数据中看到一些规律,也经常会妄下结论。要从数据中得出有效的结论,就需要严谨的统计学。
"统计意味着永远不必说自己是确定的",如果一个统计结论看起来是确定的,那么你可能是误解了什么。统计学的全部意义在于量化不确定性。
每个统计推断都基于一系列假设。在你审阅过这份清单之前,不要试图解读任何统计结果。每个统计计算背后都有一个假设,即数据是随机抽样的,或者至少代表了可能收集到的更大数值群体。如果你的数据不能代表你本可以收集(但没有收集)的更大数据集,那么统计推论就没有意义。
分析数据需要做出许多决定。 参数和非参数检验?是否消除异常值?先转换数据?根据外部控制值进行归一化?根据协变量进行调整?在回归中使用加权因子?所有这些决定(以及更多决定)都应该是实验设计的一部分。如果在检查数据后才做出统计分析的决定,那么统计分析就很容易变成高科技的欧雅板--一种产生预设结果的方法,而不是一种客观的数据分析方法。这种情况的新名称就是 P-hacking (置信区间)。
假设你计算了一组收集到的数值的平均值,或发生某些事件的受试者比例。这些值描述了您所分析的样本。但是,您所取样的总体呢?真正的总体平均值(或比例)可能更高,也可能更低。95% 置信区间的计算要考虑样本量和散点。 在给定一组假设的情况下,你可以 95% 地确定置信区间包含了真实的总体值(只有通过收集无限量的数据才能确定)。当然,除了传统,95% 并没有什么特别之处。置信区间可以按照任何期望的置信度来计算。几乎所有结果 -- 比例、相对风险、优势比、均值、均值间差异、斜率、速率常数...-- 都应附有置信区间。
P 值的逻辑初看起来很奇怪。在检验两个组是否存在差异(平均值不同、比例不同等)时,首先要假设两个种群事实上是相同的。这就是所谓的零假设。然后问:如果零假设成立,随机抽样得到的差异与实际观察到的差异一样大(甚至更大)的可能性有多小?如果 P 值很大,则您的数据符合零假设。如果 P 值很小,那么随机机会造成与实际观察值一样大的差异的可能性就很小。这让你怀疑零假设是否为真。如果不能确定零假设,就无法解读 P 值。
如果 P 值小于 0.05(这是一个任意设定但公认的临界值),那么结果就被认为具有统计学显著性。这句话听起来很明确。但它仅仅意味着,仅凭偶然的机会,你所观察到的差异(或关联或相关......)(或更大的差异)发生的几率小于 5%。就是这样。在科学或临床上微不足道的微小效应,在统计学上也可能是显著的(尤其是在大样本的情况下)。这个结论也可能是错误的,因为你会得出一个结论:结果在 5%的情况下具有统计学显著性只是偶然的。
如果差异在统计学上不显著,你就可以得出结论:观察到的结果与零假设并不矛盾。注意双重否定。你不能得出零假设为真的结论。很有可能零假设是假的,人群之间确实存在差异。这尤其是样本量小的问题。 当你需要根据这一个结果做出决定时,将一个结果定义为统计学显著或不显著是有意义的。否则,统计学显著性的概念对数据分析的作用就微乎其微了。
当同时检验多个假设时,多重比较的问题让人很容易上当受骗。如果 5%的统计检验会偶然 "统计学显著",那么如果对许多假设进行检验,你就会期待许多统计学显著的结果。可以使用特殊的方法来减少发现虚假但统计学显著的结果的问题,但这些方法也会增加发现真实效应的难度。多重比较可能是阴险的。只有在计划好所有分析,并进行和报告所有计划分析的情况下,才有可能正确解读统计分析。然而,这些简单的规则被广泛打破。
两个变量之间统计学显著的相关性或关联性可能表明一个变量导致另一个变量。但它可能只是意味着两者都受到第三个变异性的影响。也可能只是巧合。
当你阅读一篇论文时,大量的选择已经发生。当实验成功时,科学家们会继续这个项目。很多其他项目会被放弃。当项目完成后,科学家们更有可能写出导致显著结果的项目,或者不断用各种方法分析数据,以提取 "统计学显著 "的结论。最后,期刊更倾向于发表 "正面 "研究。如果零假设成立,你会期待 5%的实验结果具有统计学显著性。但这 5%的实验比其他 95% 的实验更有可能发表。