主成分回归(PCR)是多元线性回归和主成分分析的结合。
主成分分析的主要目标之一是减少未来分析的预测因子数量,这也减少了模型的自由度。本示例中,您可能一开始有 50 列 X 变量,通过 PCA,也许只需使用几个(3、5、10......)主成分就可以解释 X 变量内部的大量(70%-95%)变异性。那么,在对结果变量 Y 进行模型选择时,就可以只使用所选的主成分作为预测因子,而不是使用原来的 50 列数据。
在 PCA 对话框中选择运行 PCR 时,必须选择哪个变量为结果(依赖度)变量。该变量不能是输入变量之一。 然后,Prism 会执行以下步骤:
1.对所有选定变量执行 PCA
2.使用所选方法提取适当数量的主成分
3.执行多元线性回归,将选定的主成分得分与截距一起作为预测因子
4.将使用 PC 分数计算出的参数系数估计值转换回原始变量的比例(使用为每个 PC 定义的变量线性组合)
如果您希望回归模型更具灵活性(如拟合逻辑回归或 Poisson 回归模型),您可以通过将 PC 分数表的结果与感兴趣的因变量(结果)一起复制/粘贴到新的多元线性回归数据表中来运行多元线性回归。需要注意的是,在这种情况下,任何产生的斜率系数都将以主成分为单位,而不是以原始变量为单位。
不,这是与变异性选择不同的概念。变异性选择是确定将哪些变量纳入所选模型的过程。通过变量选择,您可以选择在回归模型中包含和排除哪些变量。如果您想用模型预测结果变量的未来值,您只需要测量模型中保留的变量。
相比之下,使用 PCR 时,所有原始变量都会被用于计算每个主成分(带有变量权重)。这就意味着,为了使用 PCR 生成的模型预测结果变量的未来值,您仍然需要获得所有原始变量的测量值。
因此,您的模型中可能只有一个预测因子(一个 PC),但这个预测因子是用所有原始变量计算出来的。这就是为什么我们说 PCA 降低了数据的维度。如果你真的想了解其中的奥秘,就需要熟悉线性代数和奇异值分解。
不是。