主成分分析(PCA)是一种强大的探索性分析模型,能够降低数据的维度。当数据包含大量变量(列)时,它尤其有用。即使面对行数少于列数的表格,它也能派上用场!
PCA的主要用途包括:
1.可视化数据以进行探索性分析。您可以通过得分图将数据行沿任意两个主成分绘制,或通过载荷图将数据列绘制,从而发现数据的有趣特征。
2.为后续分析(如主成分回归)减少预测因子的数量。
PCA利用一些复杂的数学方法(计算线性代数)来确定数据矩阵(行和列)中固有的线性结构。PCA背后的主要数学原理是奇异值分解,它是特征值分解的一种推广。
虽然理解这些方法的具体运作机制并非理解PCA及其结果的必要条件,但掌握相关概念的基本原理对解读PCA结果大有裨益。
本页面将介绍PCA的具体实施细节,以及它能为您揭示哪些数据信息。
PCA 通过提取数据中的线性关系来工作。在实践中,利用这些线性关系通常已足够,但不可否认,其广受欢迎的部分原因在于线性假设极大地简化了计算。
PCA的一个主要局限在于它无法识别非线性关系。例如,考虑三列数据X1、X2和X3。如果X1 = X2*X3(一种非线性关系),那么PCA将无法准确提取该关系。相反,对于表现出线性关系的变量,PCA非常擅长提取其更复杂的关系。
一个常见的误解是:与大多数统计模型不同,PCA本身并不要求定义响应变量。相反,所有变量都被作为预测因子输入。然而,如前所述,PCA通常被用作进一步分析的前置步骤。 PCA之后最常见的分析之一是主成分回归(PCR)。要进行PCR,必须指定一个结果变量,且该变量不能是输入到PCA中的变量之一。
另一个常见的混淆点是PCA与因子分析(FA)之间的关系。因子分析在社会科学领域广受欢迎,旨在寻找变量之间可解释的线性关系,这些关系被称为因子。换言之,因子分析基于这样一种概念:存在一个无法直接测量的“潜在”或“隐性”因子,但正是该因子导致了数据集中各变量的测量值模式。 PCA中的主成分则不具备相同的解释意义。相反,PCA仅仅是一种将观测变量数量缩减为一组较小独立成分的有用过程。PCA的优势在于其得分、因子载荷和双标图,以及能够利用降维后的得分进行进一步分析。GraphPad Prism(目前)不支持因子分析。