“显著”一词极具诱惑力,也容易被误解,因为该词在统计学中的含义与其通常含义截然不同。仅仅因为某种差异在统计学上显著,并不意味着它在生物学或临床层面具有重要性或研究价值。此外,(在首次实验中)未达到统计学显著性的结果,最终可能被证明非常重要。
采用传统定义(α=0.05),当两个总体实际上完全相同时,若出现如此大的差异(或更大的差异)的概率小于5%,则该结果被认为统计学显著。
“假设检验”这一整个框架,其结论是结果是否“统计学显著”,在必须根据单一P值结果做出明确决策的情况下是有意义的。虽然这种情况在质量控制中会出现,但在其他情况下却很少发生。通常,如临床试验中,决策是基于多种证据做出的。在基础研究中,仅凭一次实验就做出决策的情况极为罕见。
若无需依据单一P值做出决策,则无需宣称结果是否“统计学显著”。只需将P值作为数值直接报告,无需使用“统计学显著”这一术语。更佳的做法是仅报告置信区间,而不提及P值。