GraphPad Prism 11 Curve Fitting Guide

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: 使用 PRISM 进行回归分析 11 > 使用 Prism 进行多重回归 > 多元线性回归的结果

多重共线性

什么是多重共线性？

理解多重共线性的概念非常重要，因为它可能会干扰对多元回归结果的正确解读。

要理解多重共线性，首先考虑一个荒谬的例子。假设您正在进行多元回归分析，试图根据年龄和体重预测血压。现在设想您将“体重（磅）”和“体重（千克）”作为两个独立的自变量（X）输入。这两个自变量实际上衡量的是完全相同的事物 - 唯一的区别在于它们的单位不同。整体拟合的P值很可能很低，这表明血压与年龄和体重呈线性关系。接着您会查看各变量的P值。磅重量的P值会非常高 - 在方程中已包含其他变量后，该变量不再提供任何新信息。由于方程已考虑了公斤体重对血压的影响，将磅体重变量加入方程并无意义。但出于同样的原因，公斤体重的P值也会很高。在模型中加入磅体重后，再加入公斤体重变量并不会改善拟合优度。看到这些结果时，您可能会错误地认为体重对血压毫无影响，因为两个体重变量的P值都非常高。问题在于，P值仅评估每个变量的增量效应。在本示例中，这两个变量对模型都没有增量效应。这两个变量是共线性的。

本示例有些荒谬，因为除了单位不同外，这两个变量完全相同。血压的例子 - 将血压建模为年龄、体重和性别的函数 - 则更为典型。如果年长受试者的体重往往比年轻受试者重，就很难区分年龄和体重的影响；如果男性的体重比女性重，就很难区分体重和性别的影响。由于自变量之间相互交织，多重共线性将导致难以解释多元回归的结果。

量化多重共线性

多重共线性是多元回归固有的问题，它会阻碍您对数据的理解。Prism所能做的仅是向您发出警告。它通过评估每个自变量（X）在忽略因变量（Y）的情况下，能被其他X变量预测的程度来实现这一点，并以两种方式呈现结果：

•R² 值（相对于其他自变量）。即一个自变量变异性中可由其他自变量预测出的比例。该计算不包含因变量。

•方差膨胀因子（VIF）。如果自变量之间不存在冗余信息，则预期 VIF 等于 1。如果自变量之间存在共线性（即包含冗余信息），则 VIF 将大于 1。VIF 与 R² 之间的关系可通过以下公式表示：VIF=1/(1-R²)。

某些软件还会计算容差值，但Prism不提供此功能。您可以自行轻松计算每个变量的容差值，公式为 1.0 - R²。

当多重共线性较高时

如果某些自变量（X）的R²和VIF值较高，则说明您的数据存在多重共线性问题。究竟多高才算高？虽然任何阈值都是任意的，但这里有一个经验法则：如果任何一个R²值大于0.75（即VIF大于4.0），则应怀疑多重共线性可能是个问题。如果任何一个R²值大于0.90（即VIF大于10），则可断定多重共线性是一个严重的问题。

如果多重共线性问题严重，多元回归的结果可能毫无用处。解决该问题的可能方法包括：

1.确保未包含冗余信息。假设您的研究同时包含男性和女性，因此有一个自变量“女性”（女性取值1，男性取值0），以及另一个变量“男性”（女性取值0，男性取值1）。由于这两个变量编码了相同的信息，您引入了共线性。实际上只需保留其中一个变量即可。

2.合并变量。相关变量的典型例子是将体重和身高同时纳入模型，因为身材较高的人通常体重也较重。解决此问题的一种方法是根据身高和体重计算出体重指数（BMI），并将该单一变量纳入模型，而非同时包含身高和体重。

3.在某些情况下，从模型中移除一个或多个变量可将多重共线性降低至可接受的水平。

4.在其他情况下，通过在更广泛的实验条件下收集数据，可能有助于降低多重共线性。

这是一个棘手的问题，您可能需要向其他地方寻求统计方面的指导。

注释

•请勿将每个 X 变量的单独 R² 值与总体 R² 值混淆。单独的 R² 值量化了每个 X 变量能从其他 X 变量中被预测的程度。总体 R² 值量化了整个多元回归模型的拟合优度。通常，您希望总体 R² 值较高（拟合良好），而所有单独的 R² 值较低（多重共线性较小）。

•多重共线性会使置信区间（其宽度与方差的平方根成正比）扩大，扩大的倍数等于VIF的平方根。如果某个变量的VIF为9，则该系数的置信区间比不存在多重共线性时要宽三倍。

•当仅有两个独立变量时，该问题称为共线性；当有三个或更多独立变量时，则使用多重共线性这一术语。

Please enable JavaScript to view this site.

什么是多重共线性？

量化多重共线性

当多重共线性较高时

注释