GraphPad Prism 11 Statistics Guide - 选择主成分的经典方法

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: 使用 PRISM 进行统计分析 11 > 主成分分析（PCA） > 理解主成分分析 > PCA 过程 > 选择主成分

选择主成分的经典方法

选择主成分（PC）的经典方法

回顾一下，主成分（PC）的特征值代表了该主成分“解释”了原始数据中多少方差，而最大化方差很重要，因为它提供了关于原始数据最多的“信息”。因此，选择主成分子集最简单的方法之一，就是直接选取特征值最大的前 k 个成分，其中 k 的选择并没有明确的标准。除了这些主成分能解释数据中最大的方差这一事实外，此法并无更深层的依据。

若稍加提升复杂度，下一种选择方法是保留所有特征值大于1的PC。这有时被称为“凯泽法则”、“凯泽准则”或“凯泽-古特曼法则”。其理论依据可追溯至以下事实：对于标准化数据，每个原始变量的方差均等于1。因此，特征值大于1的主成分所解释的方差，比原始数据中单个变量的方差更多。该方法虽合乎逻辑，却未能考虑到即使面对随机数据（噪声），PCA仍会定义出特征值大于1的成分。在这种情况下，成分所解释的方差实际上并无实际意义，因为它仅仅是随机误差或噪声导致的方差。平行分析通过重复数据模拟来克服这一挑战。

另一种经典的主成分选择方法是考察每个成分解释的总方差百分比。主成分的特征值代表该成分解释的方差量，而数据中的总方差可表示为所有主成分特征值的总和。因此，可以通过将某个成分的特征值除以所有特征值的总和，来计算该成分解释的方差百分比。用数学公式表示：

PCn 解释的方差百分比 = [(PCn 的特征值)/(所有特征值之和)]*100

在本指南其他部分提到的示例中，我们共有两个主成分，PC1和PC2的特征值分别为1.902和0.098。使用该公式，PC1和PC2的解释方差百分比分别为95.11%和4.89%（累计而言，这两个成分解释了100%的总方差）。通过设定预先确定的阈值（通常为总解释方差的75%或80%），可以选取前k个主成分作为子集，这些主成分累计解释的方差至少达到该阈值。然而，与其他经典方法一样，这种选择方法无法解释数据中可能由随机误差或噪声引起的方差。

Please enable JavaScript to view this site.