强相关预测因子,或者更普遍地说,线性相关的预测因子,会导致估计不稳定。什么是“线性相关的预测因子”?这仅仅意味着一个变量可以表示为另一个变量的线性函数。 例如,若 X2 = 3*X1 + 6,则变量 X1 和 X2 之间存在线性依赖关系。本示例是一个非常简单的线性依赖示例,但由此可见,只要知道 X1 的值,就能自动得知 X2 的值。因此,作为预测因子,如果模型中已包含 X1,那么 X2 就无法为模型提供任何新信息。
在预测建模中,这个问题被称为多重共线性。在极端情况下,如果模型中的两个 X列完全相等,优化算法将无法确定任一列的系数估计值。这是因为存在无限多的解。 为了更清晰地理解这一点,考虑一个简单案例:假设要估计的逻辑回归模型为 logit(Y) = 1 + 2*X1。现在,假设我们创建了与 X1 完全相同的 X2,并尝试将这两个预测因子同时纳入模型进行重新拟合。该预测模型可以用多种等价形式表示,例如:
logit(Y) = 1 + X1 + X2
logit(Y) = 1 + 2*X1
logit(Y) = 1 + 0.5 * X1 + 1.5 * X2
事实上,该方程可以通过使用不同的系数以无限多种方式重写。在统计学中,这种模型被称为不可识别模型。在这种极端情况下,无法计算标准误差、置信区间和P值。
实际应用中更常见的情况是,预测因子之间存在强相关性,但并非完全相关。尽管 Prism 在这种情况下仍会生成估计值,但类似的问题依然存在。多重共线性会增加参数估计的不确定性,从而导致置信区间和 P 值增大。
若您仅关注预测结果,则标准误差较大实际上并非问题。但若您希望解读系数估计值的具体含义(例如:X1 值越大,成功概率越高),则多重共线性便成为问题。
在 Prism 中,您可以通过方差膨胀因子(VIF)来评估多重共线性。一般经验法则是:VIF 大于 10 表明存在严重的多重共线性。在这种情况下,您可能需要删除 VIF 值较高的列之一,重新拟合模型,并根据需要重复此操作。关于 VIF 的更详细说明请参见此处。
您还可以选择让 Prism 输出相关矩阵。该矩阵以矩阵形式展示了预测因子之间的成对相关性。模型中与其他变量高度相关的预测变量会导致标准误差、置信区间和 P 值的估计出现问题。