确定有影响力的功能以提高模型性能

特征选择是一种维度减少技术,其仅选择了在模拟数据的最佳预测力的测量特征(预测变量)的子集。在处理非常高维数据或与所有特征的建模是不希望的时,它特别有用。

功能选择可用于:

  • 提高A的准确性机器学习算法
  • 在非常高维数据上提升性能
  • 提高模型解释性
  • 防止过度拟合

特征选择有几种常见方法:

  • 逐步回归顺序添加或消除功能,直到预测没有改善;使用线性回归或广义线性回归算法。相似地,顺序特征选择对于任何监督学习,顺序地构建了一个功能集算法,直到精度(或自定义性能测量)停止改进。
  • 自动功能选择如邻域分量分析(NCA)识别基于其预测功率最大化分类性能的特征子集。
  • 提升和袋装决策树是组合方法,可以计算袋袋估计的变量重要性。
  • 正则化(套索和弹性网)是用于通过将其权重(系数)还原为零来消除冗余功能的收缩估计器。

另一种维数减少方法是使用特征提取或特征转换技术,该技术将现有功能转换为具有较少描述性功能的新功能(预测变量)。

功能转换方法包括:

  • 主成分分析(PCA),用于通过投影到唯一的正交基础上以更少的尺寸概括数据
  • 因子分析,用于构建数据相关的解释模型
  • 非负矩阵分解当模型术语必须表示非负数量时使用,例如物理量

有关功能选择的更多信息,包括机器学习,回归和转换,请参阅统计和机器学习工具箱™使用马铃薯®

也可以看看:统计和机器学习工具箱adaboost.机器学习线性模型正则化自动化