Please enable JavaScript to view this site.

主成分回归(PCR)是多元线性回归与主成分分析的结合。

主成分分析的主要目标之一是减少未来分析中预测因子的数量,这也相应地减少了模型中的自由度。 例如,您可能最初拥有 50 列 X 变量,而通过 PCA,或许仅需使用少数(3、5、10 等)个主成分,就能解释 X 变量内部的大部分(70-95%)变异性。 随后,在建模因变量Y时,您只需将选定的主成分作为预测变量,而非原始的50列数据。

当您选择在PCA对话框中运行PCR时,必须指定哪个变量是因变量。该变量不能是输入变量之一。随后,Prism将执行以下步骤:

1.对所有选定的变量执行PCA

2.使用所选方法提取适当数量的主成分

3.执行多元线性回归,将选定的主成分得分与截距项一同作为预测因子

4.将基于主成分得分计算出的参数系数估计值,转换回原始变量的量表(使用为每个主成分定义的变量线性组合)

若需对回归模型进行更灵活的调整(例如拟合逻辑回归或Poisson回归模型),可通过将主成分得分表的结果复制/粘贴到新的多变量数据表中,并加入目标因变量(结果变量),从而运行多元线性回归。请注意,在此情况下,所得的斜率系数将以主成分为单位,而非原始变量。

主成分回归(PCR)与变量选择是一回事吗?

不,这与变量选择是不同的概念。变量选择是确定哪些变量应纳入模型的过程。在变量选择中,您需要决定哪些变量应被纳入或排除在回归模型之外。若要利用该模型预测因变量的未来值,您只需测量模型中保留的那些变量即可。

相比之下,在主成分回归(PCR)中,所有原始变量都会被用于计算每个主成分(并赋予变量权重)。这意味着,若要利用PCR生成的模型预测因变量的未来值,仍需获取所有原始变量的测量值。

因此,您的模型中可能仅包含一个预测因子(一个主成分),但该预测因子是通过所有原始变量计算得出的。这就是为什么我们说PCA降低了数据的维度。如果您真的想理解其中的原理,就需要熟悉线性代数和奇异值分解。

PCR是否像变量选择和P-hacking那样属于“作弊”?

不。