识别有影响的特性以改进模型性能

特征选择是一种降维技术,它只选择在数据建模中提供最佳预测能力的测量特征(预测变量)的子集。它在处理非常高维的数据时特别有用,或者在不希望使用所有特性进行建模时特别有用。

特征选择可用于:

  • 提高a的精度机器学习算法
  • 提高非常高维数据的性能
  • 提高模型的可解释性
  • 防止过度拟合

有几种常见的方法来选择特征:

  • 逐步回归顺序地添加或删除特性,直到预测方面没有改进;使用线性回归或者广义线性回归算法。同样的,连续的特征选择对于任何有监督的学习,都要依次建立一个特征集算法,直到精度(或自定义性能度量)停止提高。
  • 自动特征选择例如,邻域组件分析(NCA)根据其预测能力识别出最大化分类性能的特征子集。
  • 增强并打包决策树是从包外估计计算可变重要性的集合方法。
  • 正则化(套索及弹性网)是一种通过将权重(系数)降为零来消除冗余特征的收缩估计量。

另一种降维方法是使用特征提取或特征转换技术,将现有特征转换为新特征(预测变量),去掉描述性较差的特征。

特征变换的方法包括:

  • 主成分分析(PCA),用于通过在唯一正交基上的投影来总结较少维数的数据
  • 因子分析,用于建立数据相关性的解释模型
  • 非负矩阵分解,当模型项必须表示非负量时使用,例如物理量

有关特征选择(包括机器学习、回归和转换)的更多信息,请参见统计和机器学习工具箱™与使用MATLAB®

参见:统计和机器学习工具箱,演算法,机器学习,线性模型,正则化