GraphPad Prism 11 Curve Fitting Guide - 逻辑回归中的多重共线性

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: 使用 PRISM 进行回归分析 11 > 使用 Prism 进行多重回归 > 多元逻辑回归的结果

逻辑回归中的多重共线性

强相关预测因子，或者更普遍地说，线性相关的预测因子，会导致估计不稳定。什么是“线性相关的预测因子”？这仅仅意味着一个变量可以表示为另一个变量的线性函数。例如，若 X2 = 3*X1 + 6，则变量 X1 和 X2 之间存在线性依赖关系。本示例是一个非常简单的线性依赖示例，但由此可见，只要知道 X1 的值，就能自动得知 X2 的值。因此，作为预测因子，如果模型中已包含 X1，那么 X2 就无法为模型提供任何新信息。

在预测建模中，这个问题被称为多重共线性。在极端情况下，如果模型中的两个 X列完全相等，优化算法将无法确定任一列的系数估计值。这是因为存在无限多的解。为了更清晰地理解这一点，考虑一个简单案例：假设要估计的逻辑回归模型为 logit(Y) = 1 + 2*X1。现在，假设我们创建了与 X1 完全相同的 X2，并尝试将这两个预测因子同时纳入模型进行重新拟合。该预测模型可以用多种等价形式表示，例如：

logit(Y) = 1 + X1 + X2

logit(Y) = 1 + 2*X1

logit(Y) = 1 + 0.5 * X1 + 1.5 * X2

事实上，该方程可以通过使用不同的系数以无限多种方式重写。在统计学中，这种模型被称为不可识别模型。在这种极端情况下，无法计算标准误差、置信区间和P值。

实际应用中更常见的情况是，预测因子之间存在强相关性，但并非完全相关。尽管 Prism 在这种情况下仍会生成估计值，但类似的问题依然存在。多重共线性会增加参数估计的不确定性，从而导致置信区间和 P 值增大。

若您仅关注预测结果，则标准误差较大实际上并非问题。但若您希望解读系数估计值的具体含义（例如：X1 值越大，成功概率越高），则多重共线性便成为问题。

在 Prism 中，您可以通过方差膨胀因子（VIF）来评估多重共线性。一般经验法则是：VIF 大于 10 表明存在严重的多重共线性。在这种情况下，您可能需要删除 VIF 值较高的列之一，重新拟合模型，并根据需要重复此操作。关于 VIF 的更详细说明请参见此处。

您还可以选择让 Prism 输出相关矩阵。该矩阵以矩阵形式展示了预测因子之间的成对相关性。模型中与其他变量高度相关的预测变量会导致标准误差、置信区间和 P 值的估计出现问题。

Please enable JavaScript to view this site.