在主成分分析(PCA)中,数据的量纲至关重要。进行PCA的第一步是确保待分析的变量均采用相似的测量量纲。这通常通过对数据进行标准化来实现。标准化的数学公式很简单:
xstd=(xi-x̄)/sx
其中 xstd 为标准化值,xi 为原始值,x̄ 为该变量的均值,sx 为该变量的标准偏差。实际上,这种转换会使每个变量的均值变为零,标准偏差变为 1。随后,由于方差即为标准偏差的平方,因此每个变量的方差均为 1:
varx=sx²
这一步对于确保正确解读PCA的结果至关重要,因为PCA对原始变量的变异性非常敏感。 具体来说,PCA在确定如何最佳地降低数据集维度时,判断哪些变量“最重要”的方式,是根据哪些变量具有最大的方差(下一节将对此进行详细说明)。如果原始变量的方差之间差异很大,分析结果最终会偏向方差较大的变量,而忽略方差较小的变量。
乍看之下这似乎并非坏事,但变量间的变异性差异往往并非源于数据本身,而是源于其测量尺度。以酿造啤酒时可能涉及的某些变量为例。 这些可能包括所用谷物的质量(以克为单位)、啤酒的酿造温度(以摄氏度为单位)、用水量(以升为单位),或是发酵所需的时间(以小时、天或甚至周为单位)。这些变量各自采用的计量尺度差异极大,且在不同批次酿造过程中,各变量所呈现的变异性预计也会大相径庭。 例如,您可能会预料到不同批次之间存在2-5 °C的温差或几克的麦芽量差异,但用水量可能仅相差0.05升。而在另一极端,啤酒的发酵时间可能仅需5天(120小时),也可能长达三周或更久(500+小时)。

仅因这些变量采用不同的计量尺度,其变异性便会大相径庭。时间这一示例尤为典型:若以小时为单位(取值范围120至500)而非天为单位(取值范围5至21)进行测量,其变异性将更大。标准化处理通过将每个变量的变异性统一设为1,从而解决了这一数据问题。
如果用于主成分分析(PCA)的变量均采用同一量表测量且变异性已相近,则可能无需对数据进行标准化处理。此时,只需从每个变量中减去均值(转换后的变量均值为零)即可完成数据预处理。这种方法称为中心化,使用较少,仅在确信各变量的测量尺度可比时才建议采用。