使用领域知识和转换从原始数据中提取和优化特性

特征工程是将原始数据转换为机器学习使用的功能的过程。特征工程很困难,因为从信号和图像中提取特征需要深度域知识并找到最佳功能,即使您应用自动方法,即使您应用自动方法也是一个迭代过程。

功能工程包含以下一个或多个步骤:

  1. 特征提取要生成候选特性
  2. 功能转换,映射功能使其更适合下游建模
  3. 功能选择识别在数据建模中提供更好预测能力的子集,同时减少模型规模和简化预测。

例如,体育统计数据包括游戏等数字数据,每场比赛的平均时间和得分,都被玩家分解。在此上下文中的特征提取包括将这些统计数据压缩成导出的数字,如每游戏的点或平均时间进行分数。然后,特征选择成为您是否使用这些比率构建模型的问题,或者原始统计数据是否仍然有助于模型更准确的预测。

人工提取信号和图像数据的特征需要信号和图像处理知识,尽管自动化技术,如小波变换已经证明非常有效。即使你将深度学习应用于信号数据,这些技术也是有用的,因为深度神经网络很难在原始信号数据中发现结构。传统的文本特征提取方法是将文本建模为一个词包。现代的方法是利用深度学习对词语的上下文进行编码,比如流行的词语嵌入技术Word2vec.

特征转换包括流行的数据准备技术,例如归一化以解决特征规模的大差异,还可以聚合来总结数据,过滤以去除噪声,以及维卡等维度减少技术,例如PCA和因子分析。

MATLAB支持许多特征选择方法金宝app®.有些基于重要性的重点,这可能是与响应相关的基本。一些机器学习模型在学习算法期间估算特征重要性(“嵌入式”特征选择),而所谓的基于过滤器的方法推断出单独的特征重要性模型。包装选择方法使用选择标准迭代地添加和删除候选功能。下图概述了特征工程的各个方面,以指导从业者寻找其机器学习模型的表现特征。

基本功能工程流程。

众所周知,深度学习以原始图像和信号数据作为输入,从而消除了特征工程步骤。虽然这对于大型图像和视频数据集很有效,但在将深度学习应用于较小的数据集和基于信号的问题时,特征工程对于良好的性能仍然至关重要。

关键点

  • 特征工程是应用机器学习的基础,也与深度学习在信号中的应用相关。
  • 小波散射从信号和图像数据提供良好的功能,无需手动功能提取
  • 诸如特征转换和选择之类的其他步骤可以产生适合部署到硬件约束环境的更准确但较小的特征。

例子

通过应用中实施的最小冗余最大相关性(MRMR)算法来排序特征fscmrmr如图所示,Matlab在Matlab中的功能会产生良好的分类功能这个例子.重要值的大幅下降意味着您可以确定模型使用哪些功能的阈值,而较小的下降则表明您可能必须包含许多额外的功能,以避免结果模型的精度的显著损失。

MRMR仅适用于分类问题。回归,邻里分量分析是一个很好的选择,在Matlab中提供FSRNCA.

也可以看看:特征提取功能选择聚类分析小波工具箱