Please enable JavaScript to view this site.

什么是投影?

对于变量数量庞大的数据集,我们需要进行降维,以便更轻松地理解数据内部的关系,或者基于数据构建模型,从而对未来的观测结果进行可靠的预测。实现降维的一种方法是通过一个被称为“投影”的过程。幸运的是,即使我们不熟悉这个术语,也对这一概念并不陌生。

在前一节中,我们探讨了使用“3D”图表沿三个独立维度(即作为垂直坐标轴的三个变量)展示数据的方法。然而,这些“3D”图表的实质在于:它们并非真正包含三个相互垂直的坐标轴,而仅仅是呈现了三个坐标轴。这些图表展示在纸张或电脑屏幕上,而纸张和屏幕都是平面的,仅具有两个维度(长度和宽度,但没有深度)。 这些“3D”图表看似具有第三个空间维度,但实际上只有两个维度。这看似显而易见,却是与降维密切相关的一个重要概念。

这些“3D”图表的实际运作原理是:由三维(三个变量)描述的信息被投影到了二维空间中。 幸运的是,我们(人类)的大脑非常擅长解读三维数据在二维空间中的投影。每当我们看照片或电影时,其实都在解读三维信息的二维投影,并且能很好地理解这些图像中隐含的“深度”信息 - 尽管实际上并不存在深度。

向坐标轴的投影

为了使本节后续的概念更易于理解,让我们考虑一个仅包含两个变量(即前文提到的变量 A 和 B)的简单数据集。数据如下:

让我们通过一个(二维)图表来看一个投影的示例:

 

这是上述数据集中两个变量的图表。将数据投影到 X 轴(变量 A)上可能看起来像这样:

 

如果我们选择将数据点投影到 Y 轴(变量 B)上,最终会得到如下图所示的图形:

 

 

您可能已经意识到,通过进行这些投影,我们减少了描述数据所需的维度。在第一个示例中,我们只需要变量A的值,并将这些投影数据表示为一条简单的数轴。在第二个示例中,我们最终得到的是变量B的值,同样可以将其呈现于一条数轴上(旋转后更便于阅读)。

投影到其他坐标轴上

将数据投影到其中一个坐标轴上,展示了描述数据所需的维度如何减少。然而,这也表明无论采用哪种方法,都会丢失大量信息。当投影到变量 A(X 轴)上时,关于变量 B 的信息会丢失,反之亦然。 通常,我们希望在投影过程中尽可能减少信息损失。因此,存在其他能够保留两个变量信息的投影方法,其中一种方法大家可能非常熟悉。

线性回归是一种将数据点投影到直线上的极其常见的方法。通常,回归的执行方式是使数据点与直线之间的垂直距离平方和最小化。请看以下两幅图:

           

 

左侧图中,数据点被投影到一条拟合优度不佳的直线上,数据点与直线之间的垂直距离较大。右侧图中,垂直距离已被最小化,这是该数据的最佳拟合直线。

在标准回归中,数据沿 Y 方向(垂直方向)投影到直线上,并使这些距离最小化。然而,也可以使用其他技术来投影数据。例如,沿 X 方向(水平方向)进行投影。最小化这些距离会生成一条略有不同的直线:

 

另一种将数据投影到直线上的方法是同时最小化两个方向上的距离。 我们将使用之前的数据,但在继续之前会对数据进行一些变换。这些变换不仅能直观地展示这种投影方法与其他两种方法的对比,而且由于主成分的定义方式,在进行主成分分析(PCA)时也至关重要。相关内容将在另一章节中详细讨论。

以下是我们的原始数据:

我们将对这组数据进行标准化处理。具体步骤是:首先计算每个变量的均值和标准偏差;然后,对于该变量中的每个数值,减去该变量的均值并除以其标准偏差(这也常被称为该数值的Z分数)。对于这组数据,标准化后的结果如下(四舍五入):

关于标准化变量,有一点需要特别注意:它们的均值始终为0,标准偏差始终为1。让我们通过图表来观察这些标准化数据。

 

总体而言,标准化数据的图表与原始数据的图表非常相似,但发生了位移,使得点云的“中心”位于原点 (0,0)。 请注意,数据在 X 和 Y 方向上的尺度也发生了变化,但由于两组数据的标准偏差相近(变量 A 为 3.90,变量 B 为 4.45),散点图的整体形状并未发生太大变化。

利用标准化数据,现在我们来探讨如何将这些点投影到一条直线上,使得点与直线之间的水平和垂直距离同时最小化。由于我们对数据进行了标准化(即 X 和 Y 方向的方差相等),这等同于最小化点与直线之间的垂直距离:

 

若将这条直线与通过最小化点与直线之间垂直距离(红色)或水平距离(蓝色)拟合出的直线进行比较,我们会发现最小化垂直距离(绿色)的直线恰好位于中间:

 

成果

那么,我们为何要费心探讨数据投影以及可用于投影的各种直线呢?事实证明,在使用标准化数据时,通过最小化点与直线之间的垂直距离来拟合直线,同时也最大化了投影到拟合直线上的数据的方差。这意味着同时采用这一过程:

最小化数据投影到直线上的信息损失

最大化了投影数据在拟合线上的方差

再通过一个图形对比来进一步说明。这里再次展示了通过最小化标准化数据点与直线之间的垂直距离,将数据投影到拟合直线上的情况:

 

现在比较同一组数据垂直投影到另一条拟合线上的方差(离散程度):

 

在第二幅图中,很明显数据点与直线之间的距离远大于前一幅图,而且投影数据在直线上聚集得更为紧密。令人惊讶的是,事实证明,最小化数据点与直线之间的垂直距离等同于最大化数据在直线上的方差。 更重要的是,这正是PCA(主成分分析)试图实现的目标:通过将数据投影到更少的维度上,来解释数据中最大的变异性。当然,PCA是在存在大量变量时才进行这种操作的。当只有两个变量时,实际上根本不需要进行降维。