平行分析(有时也称为“霍恩平行分析”,以该方法的创始人约翰·L·霍恩命名)是一种用于选择主成分的方法,它能解释数据中由随机误差或噪声引起的方差。进行平行分析的过程可概括如下:
1.对数据集进行主成分分析(PCA),并确定每个主成分(PC)的特征值
2.模拟一个与原始数据具有相同变量数(p)和观测值数(n)的数据集
3.对模拟数据集进行PCA分析,并确定模拟的特征值
4.重复模拟/PCA过程多次(默认1000次),计算每次模拟的特征值
5.计算所有模拟中各主成分(PC)特征值的平均值和第95百分位数
6.将实际特征值与模拟结果中特征值的第95百分位数进行比较
7.保留(选择)特征值大于模拟结果中特征值第95百分位的成分
其原理在于,仅因数据中的随机误差(抽样变异性),PCA 就会生成一些特征值大于 1 的成分。通常,由“噪声”数据生成的前几个特征值会随着变量数量的增加而增大,随着观测值数量的增加而减小。 通过仅保留那些特征值大于模拟特征值第95百分位数的PC,可以确保这些PC所解释的方差很可能是“真实”的方差,而非由噪声引起的方差。