选择主成分(PC)的经典方法
回顾一下,主成分(PC)的特征值代表了该主成分“解释”了原始数据中多少方差,而最大化方差很重要,因为它提供了关于原始数据最多的“信息”。因此,选择主成分子集最简单的方法之一,就是直接选取特征值最大的前 k 个成分,其中 k 的选择并没有明确的标准。 除了这些主成分能解释数据中最大的方差这一事实外,此法并无更深层的依据。
若稍加提升复杂度,下一种选择方法是保留所有特征值大于1的PC。这有时被称为“凯泽法则”、“凯泽准则”或“凯泽-古特曼法则”。其理论依据可追溯至以下事实:对于标准化数据,每个原始变量的方差均等于1。 因此,特征值大于1的主成分所解释的方差,比原始数据中单个变量的方差更多。该方法虽合乎逻辑,却未能考虑到即使面对随机数据(噪声),PCA仍会定义出特征值大于1的成分。在这种情况下,成分所解释的方差实际上并无实际意义,因为它仅仅是随机误差或噪声导致的方差。平行分析通过重复数据模拟来克服这一挑战。
另一种经典的主成分选择方法是考察每个成分解释的总方差百分比。主成分的特征值代表该成分解释的方差量,而数据中的总方差可表示为所有主成分特征值的总和。因此,可以通过将某个成分的特征值除以所有特征值的总和,来计算该成分解释的方差百分比。用数学公式表示:
PCn 解释的方差百分比 = [(PCn 的特征值)/(所有特征值之和)]*100
在本指南其他部分提到的示例中,我们共有两个主成分,PC1和PC2的特征值分别为1.902和0.098。使用该公式,PC1和PC2的解释方差百分比分别为95.11%和4.89%(累计而言,这两个成分解释了100%的总方差)。 通过设定预先确定的阈值(通常为总解释方差的75%或80%),可以选取前k个主成分作为子集,这些主成分累计解释的方差至少达到该阈值。然而,与其他经典方法一样,这种选择方法无法解释数据中可能由随机误差或噪声引起的方差。