GraphPad Prism 11 Statistics Guide

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: 使用 PRISM 进行统计分析 11 > 主成分分析（PCA） > 理解主成分分析 > PCA 过程

准备分析数据

在主成分分析（PCA）中，数据的量纲至关重要。进行PCA的第一步是确保待分析的变量均采用相似的测量量纲。这通常通过对数据进行标准化来实现。标准化的数学公式很简单：

xstd=(xi-x̄)/sx

其中 xstd 为标准化值，xi 为原始值，x̄ 为该变量的均值，sx 为该变量的标准偏差。实际上，这种转换会使每个变量的均值变为零，标准偏差变为 1。随后，由于方差即为标准偏差的平方，因此每个变量的方差均为 1：

varx=sx²

这一步对于确保正确解读PCA的结果至关重要，因为PCA对原始变量的变异性非常敏感。具体来说，PCA在确定如何最佳地降低数据集维度时，判断哪些变量“最重要”的方式，是根据哪些变量具有最大的方差（下一节将对此进行详细说明）。如果原始变量的方差之间差异很大，分析结果最终会偏向方差较大的变量，而忽略方差较小的变量。

乍看之下这似乎并非坏事，但变量间的变异性差异往往并非源于数据本身，而是源于其测量尺度。以酿造啤酒时可能涉及的某些变量为例。这些可能包括所用谷物的质量（以克为单位）、啤酒的酿造温度（以摄氏度为单位）、用水量（以升为单位），或是发酵所需的时间（以小时、天或甚至周为单位）。这些变量各自采用的计量尺度差异极大，且在不同批次酿造过程中，各变量所呈现的变异性预计也会大相径庭。例如，您可能会预料到不同批次之间存在2-5 °C的温差或几克的麦芽量差异，但用水量可能仅相差0.05升。而在另一极端，啤酒的发酵时间可能仅需5天（120小时），也可能长达三周或更久（500+小时）。

仅因这些变量采用不同的计量尺度，其变异性便会大相径庭。时间这一示例尤为典型：若以小时为单位（取值范围120至500）而非天为单位（取值范围5至21）进行测量，其变异性将更大。标准化处理通过将每个变量的变异性统一设为1，从而解决了这一数据问题。

如果用于主成分分析（PCA）的变量均采用同一量表测量且变异性已相近，则可能无需对数据进行标准化处理。此时，只需从每个变量中减去均值（转换后的变量均值为零）即可完成数据预处理。这种方法称为中心化，使用较少，仅在确信各变量的测量尺度可比时才建议采用。

Please enable JavaScript to view this site.