特征选择是一个维数降低技术,其选择的是,在模拟的一组数据提供最佳的预测能力的功能(预测变量)的子集。
特征选择可以用来:
- 防止过度拟合:避免建模的那些更容易死记硬背具体的训练例子的特征数量过多
- 减少模型大小:增加与高维数据的计算性能或嵌入式部署,其中存储器可能是有限的准备模式。
- 提高可解释性:使用较少的特性,这可能有助于识别影响模型行为的特性
有以特征选择几种常见的方法。
反复变化特点设置以优化性能或亏损
逐步回归依次添加或删除功能,直到有在预测没有改善。它用于与线性回归或广义线性回归算法。同样,色曲ential特征选择积聚特征集直到精度(或自定义性能测量)停止改善。
排名基于特征的固有特性
这些方法估算排名的特点,这反过来又可以用来选择前几名排名功能。最小冗余最大相关性(MRMR)发现功能,最大限度地提高的特征和响应变量之间的相互信息最小化和功能本身之间的相互信息。根据拉普拉斯算子分数或使用的一个单一的特征是否独立响应,以确定特征的重要性的统计测试相关方法秩特征。
邻里成分分析(NCA)和ReliefF
这些方法通过最大化基于成对距离预测的准确性和惩罚,导致误分类的结果预测因子确定的特征权重。
学习与模型一起功能重要性
一些有监督机器学习算法在训练过程中估计特征重要性。这些估计可用于训练完成后对特征进行排序。具有内置特征选择的模型包括线性支持向量机、增强决策树及其集合(随机森林),和广义线性模型。类似地,在套索中正规化收缩估计训练过程中减小的冗余特征为零的权重(系数)。
马铃薯®金宝app支持以下功能选择方法:
算法 | 训练 | 模型类型 | 精确 | 警告 |
---|---|---|---|---|
NCA | 适度的 | 更好地为基于距离的模型 | 高的 | 需要正规化拉姆达的手动调谐 |
MRMR | 快速地 | 任何 | 高的 | 仅用于分类 |
ReliefF | 适度的 | 更好地为基于距离的模型 | 中等的 | 无法区分相关的预测值 |
顺序 | 减缓 | 任何 | 高的 | 并不是所有的功能都排序 |
F试验 | 快速地 | 任何 | 中等的 | 为了回归。无法区分相关预测因子。 |
卡方 | 快速地 | 任何 | 中等的 | 对于分类。无法区分相关预测。 |
作为特征选择的一种替代方法,特征转换技术将现有特征转换为新特征(预测变量),并减少描述性特征。特征转换方法包括:
有关使用MATLAB功能选择,包括机器学习,回归和转型的更多信息,请参阅统计和机器学习工具箱™。
要点
- 特征选择是一种先进的技术来升压模型的性能(特别是在高维数据),提高解释性,并减小尺寸。
- 考虑具有“内置”的特征选择第一的车型之一。否则MRMR作品真的很好进行分类。
例子
特征选择可以帮助从数百个应用小波散射自动生成功能,选择合理的子集。顶部的下面示出了图中的排名通过将MATLAB函数获得50特征fscmrmr
从人类活动的传感器数据自动生成小波特征。