Please enable JavaScript to view this site.

在前面的章节中,我们已经明确了主成分是以排序方式定义的:第一个主成分“解释”(或归因于)了数据中大部分的变异量。第二个主成分“解释”了数据中次多的变异量,以此类推。还请回顾:

PCA的主要目标是降维

每个主成分所解释的方差由其特征值决定

可能的主成分数量等于原始变量的数量(假设数据中的观测值多于变量)

综合来看,这意味着如果我们为某数据集定义所有可能的主成分,最终得到的将是一个与原始数据集维度相同的新数据集 - 而非维度已降维的数据集。 因此,我们必须找到一种方法来指定要保留哪些主成分,而舍弃哪些。这一将成分定义为原始变量的线性组合,并从中保留“最重要”成分的整体过程被称为特征提取(不要与特征选择混淆)。

从所有可能的主成分中选取子集有几种常见方法,其中绝大多数都与特征值(前文已讨论)有关

成分选择方法

以下页面将介绍选择主成分子集的不同技术及其各自的优势。此处描述的许多经典技术基于基础标准,在计算模拟尚未广泛普及之前曾被广泛采用。并行分析(Parallel Analysis)通过蒙特卡洛分析改进了其中许多技术。若您只能阅读其中一种方法,请务必了解并行分析。

 

选择主成分的经典方法

并行分析