理解多重共线性的概念非常重要,因为它可能会干扰对多元回归结果的正确解读。
要理解多重共线性,首先考虑一个荒谬的例子。假设您正在进行多元回归分析,试图根据年龄和体重预测血压。现在设想您将“体重(磅)”和“体重(千克)”作为两个独立的自变量(X)输入。这两个自变量实际上衡量的是完全相同的事物 - 唯一的区别在于它们的单位不同。 整体拟合的P值很可能很低,这表明血压与年龄和体重呈线性关系。接着您会查看各变量的P值。磅重量的P值会非常高 - 在方程中已包含其他变量后,该变量不再提供任何新信息。 由于方程已考虑了公斤体重对血压的影响,将磅体重变量加入方程并无意义。但出于同样的原因,公斤体重的P值也会很高。在模型中加入磅体重后,再加入公斤体重变量并不会改善拟合优度。 看到这些结果时,您可能会错误地认为体重对血压毫无影响,因为两个体重变量的P值都非常高。问题在于,P值仅评估每个变量的增量效应。在本示例中,这两个变量对模型都没有增量效应。这两个变量是共线性的。
本示例有些荒谬,因为除了单位不同外,这两个变量完全相同。 血压的例子 - 将血压建模为年龄、体重和性别的函数 - 则更为典型。如果年长受试者的体重往往比年轻受试者重,就很难区分年龄和体重的影响;如果男性的体重比女性重,就很难区分体重和性别的影响。由于自变量之间相互交织,多重共线性将导致难以解释多元回归的结果。
多重共线性是多元回归固有的问题,它会阻碍您对数据的理解。Prism所能做的仅是向您发出警告。它通过评估每个自变量(X)在忽略因变量(Y)的情况下,能被其他X变量预测的程度来实现这一点,并以两种方式呈现结果:
•R² 值(相对于其他自变量)。即一个自变量变异性中可由其他自变量预测出的比例。该计算不包含因变量。
•方差膨胀因子(VIF)。如果自变量之间不存在冗余信息,则预期 VIF 等于 1。如果自变量之间存在共线性(即包含冗余信息),则 VIF 将大于 1。VIF 与 R² 之间的关系可通过以下公式表示:VIF=1/(1-R²)。
某些软件还会计算容差值,但Prism不提供此功能。您可以自行轻松计算每个变量的容差值,公式为 1.0 - R²。
如果某些自变量(X)的R²和VIF值较高,则说明您的数据存在多重共线性问题。究竟多高才算高?虽然任何阈值都是任意的,但这里有一个经验法则:如果任何一个R²值大于0.75(即VIF大于4.0),则应怀疑多重共线性可能是个问题。 如果任何一个R²值大于0.90(即VIF大于10),则可断定多重共线性是一个严重的问题。
如果多重共线性问题严重,多元回归的结果可能毫无用处。解决该问题的可能方法包括:
1.确保未包含冗余信息。假设您的研究同时包含男性和女性,因此有一个自变量“女性”(女性取值1,男性取值0),以及另一个变量“男性”(女性取值0,男性取值1)。由于这两个变量编码了相同的信息,您引入了共线性。实际上只需保留其中一个变量即可。
2.合并变量。相关变量的典型例子是将体重和身高同时纳入模型,因为身材较高的人通常体重也较重。解决此问题的一种方法是根据身高和体重计算出体重指数(BMI),并将该单一变量纳入模型,而非同时包含身高和体重。
3.在某些情况下,从模型中移除一个或多个变量可将多重共线性降低至可接受的水平。
4.在其他情况下,通过在更广泛的实验条件下收集数据,可能有助于降低多重共线性。
这是一个棘手的问题,您可能需要向其他地方寻求统计方面的指导。
•请勿将每个 X 变量的单独 R² 值与总体 R² 值混淆。单独的 R² 值量化了每个 X 变量能从其他 X 变量中被预测的程度。总体 R² 值量化了整个多元回归模型的拟合优度。通常,您希望总体 R² 值较高(拟合良好),而所有单独的 R² 值较低(多重共线性较小)。
•多重共线性会使置信区间(其宽度与方差的平方根成正比)扩大,扩大的倍数等于VIF的平方根。如果某个变量的VIF为9,则该系数的置信区间比不存在多重共线性时要宽三倍。
•当仅有两个独立变量时,该问题称为共线性;当有三个或更多独立变量时,则使用多重共线性这一术语。