功能选择

减少功能,提高模型性能

特征选择是一种降维技术,它选择特征(预测变量)的子集,在建模一组数据时提供最好的预测能力。

特征选择可以用于:

  • 防止过拟合:避免使用过多的特征进行建模,这些特征更容易被死记硬背的特定训练示例所影响
  • 减小模型大小:使用高维数据提高计算性能,或者为内存有限的嵌入式部署准备模型。
  • 提高解释性:使用较少的功能,这可能有助于识别那些影响模型行为的特征

有几种常见的特性选择方法。

迭代地更改特性集以优化性能或损失

逐步回归顺序地添加或删除功能,直到预测没有任何改进。它与线性回归或广义线性回归算法一起使用。同样,sequ基本特征选择构建功能集,直到精确度(或自定义性能度量)停止提高。

基于固有特征的等级特征

这些方法估计特征的排名,然后可以用来选择排名前几的特征。最小冗余最大相关性(MRMR)发现特征最大化特征与响应变量之间的互信息,最小化特征自身之间的互信息。相关方法根据拉普拉斯分数对特征进行排序,或使用统计检验来确定特征的重要性,以确定单个特征是否独立于响应。

邻域成分分析(NCA)与救济

这些方法通过最大化基于成对距离的预测精度和惩罚导致错误分类结果的预测器来确定特征权重。

与模型一起学习特性的重要性

一些监督机器学习算法估算培训过程中的特征重要性。这些估计可以用于培训完成后的特征。具有内置特征选择的模型包括线性SVM,提升决策树及其合奏(随机林)和广义的线性模型。同样,在套索正则化在训练过程中,收缩估计器将冗余特征的权值(系数)降低到零。

MATLAB®金宝app支持以下特性选择方式:

算法 培训 模型的类型 准确性 警告
NCA 中等 更适合基于距离的模型 高的 需要手动调整正则化lambda
MRMR 任何 高的 仅限分类
ReliefF 中等 更适合基于距离的模型 媒介 无法区分相关预测器
顺序 任何 高的 没有排名所有功能
方差齐性检验 任何 媒介 为了回归。无法区分相关预测因子。
卡方 任何 媒介 的分类。无法区分相关预测因子。

作为特征选择的替代,功能转换技术将现有功能转换为具有丢弃的描述性功能较少的新功能(预测变量)。功能转换方法包括:

  • 主要成分分析(PCA),用于通过投影到唯一正交基础上以更少的尺寸概述数据
  • 因子分析,用于建立数据相关性的解释性模型
  • 非负矩阵分解,使用模型术语必须表示非负值(如物理量)

有关使用MATLAB进行特征选择的更多信息,包括机器学习、回归和转换,请参见统计和机器学习工具箱™

关键点

  • 特征选择是一种提高模型性能(特别是在高维数据上)、提高可解释性和减小模型大小的高级技术。
  • 首先考虑一个具有“内置”特征选择的模型。除此之外,MRMR在分类方面也很有效。

例子

特征选择可以帮助从小波散射自动生成的数百个特征中选择一个合理的子集。下图是应用MATLAB函数得到的前50个特征的排名FSCMRMR.从人体活动传感器数据中自动生成小波特征。

参见:统计和机器学习工具箱机器学习特征工程正则化特征提取生物医学信号处理