Please enable JavaScript to view this site.

Navigation: 回归原理 > 多元回归原理

为什么不进行逐步回归?

Scroll Prev Top Next More

什么是逐步回归?

许多多元回归程序都能自动选择变量。您只需向程序提供大量变量的数据,程序便会自行决定实际使用哪些变量。自动变量选择的吸引力显而易见。您只需将所有数据输入程序,程序就会为您做出所有决策。为何称为“逐步”?因为该自动过程分步骤拟合多个模型,通过向模型中添加(或移除)变量来寻找“最佳”模型。

Prism 不提供自动变量选择功能。

逐步法存在什么问题?

问题在于多重比较。当给定包含 k 个自变量的数据,并指示程序使用全子集法比较所有可能模型的拟合度时,多元回归程序需要比较多少个模型?由于每个变量都可能被纳入或排除在最终模型之外,因此程序将比较 2^k 个模型。例如,如果研究者最初有 20 个变量,那么自动变量选择将比较 2²⁰ 个模型(超过一百万个),这甚至还没有考虑交互作用。

当您阅读一篇展示多元回归结果的论文时,甚至可能不知道研究者最初使用了多少个变量。彼得·弗洛姆 (1) 解释了为何这种信息缺失使得无法解释采用逐步变量选择的多元回归结果:

如果您抛硬币十次,结果全是正面,那么您肯定会觉得事情有些不对劲。鉴于每次抛硬币出现正面的概率是0.5,您可以精确量化这种事件发生的概率有多低。如果让10个人每人抛硬币十次,其中一人抛出了10次正面,您虽然不会那么怀疑,但仍然可以量化这种可能性。 但如果您有一群朋友(您没数过人数)各自抛掷硬币若干次(他们没告诉您具体次数),而其中有人连续抛出10次正面,您甚至不知道该有多怀疑。这就是逐步法。

自动变量选择的后果是普遍且严重的(1,2):

最终模型拟合过度。R²值过高。

最佳拟合参数值偏离零点过远。这合乎逻辑。由于绝对值较低的变量已被剔除,剩余变量的绝对值往往会高于其应有水平。

置信区间过窄,导致您误以为对参数值的掌握精度高于实际应有的水平。

在检验参数是否具有统计学显著性时,P 值过小,无法进行有效解读。

参考文献

1.Flom, P. L., & Cassell, D. L. (2007). 停止逐步法:为何逐步法及类似的选择方法不可取,以及您应该使用什么。东北SAS用户组。

2.Harrell, F. (2015). 《回归建模策略:线性模型、逻辑回归、序数回归及生存分析的应用》。第2版。Springer出版社。ISBN: 978-3319194240