特征选择

减少功能,以提高模型的性能

特征选择是一个维数降低技术,其选择的是,在模拟的一组数据提供最佳的预测能力的功能(预测变量)的子集。

特征选择可以用来:

  • 防止过度拟合:避免建模的那些更容易死记硬背具体的训练例子的特征数量过多
  • 减少模型大小:增加与高维数据的计算性能或嵌入式部署,其中存储器可能是有限的准备模式。
  • 提高可解释性:使用较少的特性,这可能有助于识别影响模型行为的特性

有以特征选择几种常见的方法。

反复变化特点设置以优化性能或亏损

逐步回归依次添加或删除功能,直到有在预测没有改善。它用于与线性回归或广义线性回归算法。同样,色曲ential特征选择积聚特征集直到精度(或自定义性能测量)停止改善。

排名基于特征的固有特性

这些方法估算排名的特点,这反过来又可以用来选择前几名排名功能。最小冗余最大相关性(MRMR)发现功能,最大限度地提高的特征和响应变量之间的相互信息最小化和功能本身之间的相互信息。根据拉普拉斯算子分数或使用的一个单一的特征是否独立响应,以确定特征的重要性的统计测试相关方法秩特征。

邻里成分分析(NCA)和ReliefF

这些方法通过最大化基于成对距离预测的准确性和惩罚,导致误分类的结果预测因子确定的特征权重。

学习与模型一起功能重要性

一些有监督机器学习算法在训练过程中估计特征重要性。这些估计可用于训练完成后对特征进行排序。具有内置特征选择的模型包括线性支持向量机、增强决策树及其集合(随机森林),和广义线性模型。类似地,在套索中正规化收缩估计训练过程中减小的冗余特征为零的权重(系数)。

马铃薯®金宝app支持以下功能选择方法:

算法 训练 模型类型 精确 警告
NCA 适度的 更好地为基于距离的模型 高的 需要正规化拉姆达的手动调谐
MRMR 快速地 任何 高的 仅用于分类
ReliefF 适度的 更好地为基于距离的模型 中等的 无法区分相关的预测值
顺序 减缓 任何 高的 并不是所有的功能都排序
F试验 快速地 任何 中等的 为了回归。无法区分相关预测因子。
卡方 快速地 任何 中等的 对于分类。无法区分相关预测。

作为特征选择的一种替代方法,特征转换技术将现有特征转换为新特征(预测变量),并减少描述性特征。特征转换方法包括:

  • 主成分分析(PCA),用于通过投影到唯一正交基上,以较少的维度汇总数据
  • 因子分析,用于构建数据的相关性的解释模型
  • 非负矩阵分解,当模型项必须表示非负值(如物理量)时使用

有关使用MATLAB功能选择,包括机器学习,回归和转型的更多信息,请参阅统计和机器学习工具箱™

要点

  • 特征选择是一种先进的技术来升压模型的性能(特别是在高维数据),提高解释性,并减小尺寸。
  • 考虑具有“内置”的特征选择第一的车型之一。否则MRMR作品真的很好进行分类。

例子

特征选择可以帮助从数百个应用小波散射自动生成功能,选择合理的子集。顶部的下面示出了图中的排名通过将MATLAB函数获得50特征fscmrmr从人类活动的传感器数据自动生成小波特征。

也可以看看:统计和机器学习工具箱机器学习特征工程正规化特征提取生物医学信号处理