识别有影响的特征以提高模型性能

特征选择是一种降维技术,它只选择测量特征(预测变量)的子集,这些特征在数据建模中提供了最佳的预测能力。当处理非常高维的数据或使用所有不需要的特性建模时,它特别有用。

特征选择可用于:

  • 提高a的精度机器学习算法
  • 提高高维数据的性能
  • 提高模型的可解释性
  • 防止过度拟合

有几种常见的特征选择方法:

  • 逐步回归按顺序添加或删除特征,直到预测没有改进;使用线性回归或者广义线性回归算法。同样的,连续的特征选择对于任何监督学习顺序建立一个特征集算法,直到精度(或自定义性能度量)停止改善。
  • 自动特征选择例如邻域成分分析(NCA)识别出一个基于预测能力最大化分类性能的特征子集。
  • boost和bagged决策树是集合方法,从袋外估计计算可变的重要性。
  • 正则化(套索和松紧网)是一个收缩估计器,通过将其权重(系数)降低到零来消除冗余特征。

另一种降维方法是使用特征提取或特征转换技术,将现有的特征转换为新的特征(预测变量),减少较少的描述性特征。

特征转换的方法包括:

  • 主成分分析(PCA),用投影到唯一的正交基上的方法来总结较少维度的数据
  • 因子分析,用于建立数据相关性的解释模型
  • 非负矩阵分解,当模型术语必须表示非负量时使用,例如物理量

有关特征选择的更多信息,包括机器学习、回归和转换,请参见统计和机器学习工具箱™使用MATLAB®

参见:统计和机器学习工具箱,演算法,机器学习,线性模型,正则化,AutoML