GraphPad Prism 11 Statistics Guide - 特征选择与特征提取

特征选择与特征提取

实现降维主要有两种方法：特征选择和特征提取。不必过分纠结于此处的“特征”一词。在机器学习（PCA主要应用于此领域）中，“特征”一词仅指可测量的属性，通常与“预测变量”互换使用。在Prism中，您也会看到它们被简单地称为“变量”。

特征选择与特征提取的主要区别在于对数据集原始变量的处理方式。在特征选择中，最初会考虑所有变量，然后根据特异性标准剔除部分变量。剩余的变量可能会经历多轮额外筛选，但一旦过程完成，所选变量就与原始数据中的呈现形式保持一致。

特征选择仅挑选原始变量中“最重要的”部分，并舍弃其余变量。某些经典的特征选择技术（尤其是逐步选择、向前选择或向后选择）通常被认为不妥，且 Prism 目前不提供任何形式的自动特征选择技术。

相比之下，特征提取则是利用原始变量构建一组新的变量（或特征）。从原始变量中推导出这些新特征的方法可以是线性的，也可以是非线性的。主成分分析（PCA）是特征提取中最常用的线性方法。采用这种方法时，PCA 通过原始变量的线性组合来推导出新特征集（在 PCA 中，我们将这些新特征称为主成分，或 PC）。

为了理解线性组合，请考虑以下水果潘趣酒配方：

水果潘趣
酒8杯蔓越莓
汁3杯菠萝汁
3杯橙汁
¼杯柠檬汁
4¼杯姜汁汽水

另一种理解方式是将其视为原料（变量）的线性组合：

水果潘趣 = 8*(蔓越莓汁) + 3*(菠萝汁) + 3*(橙汁) + 0.25*(柠檬汁) + 4.25*(姜汁汽水)

每个变量都乘以一个常数（系数），然后将各乘积相加。PCA 通过生成作为原始变量线性组合的主成分（PCs）来执行类似的过程。PCA 真正关键的部分在于这些主成分的定义方式，它允许将原始数据投影到低维空间，同时最大限度地减少信息损失。

下方的两张图总结了特征选择（消除原始变量）与特征提取（通过原始变量的组合形成新变量）之间的区别，随后利用包含最有价值信息的新变量将数据投影到低维空间中。

Please enable JavaScript to view this site.