使用域知识和转换来提取和优化原始数据的功能

特征工程是将原始数据转化为特征供机器学习使用的过程。特征工程是困难的,因为从信号和图像中提取特征需要深入的领域知识,并且即使使用自动化方法,找到最好的特征基本上仍然是一个迭代过程。

特性工程包含以下一个或多个步骤:

  1. 特征提取生成候选功能
  2. 特征转换,它映射特征,使它们更适合下游建模
  3. 特征选择识别在降低模型大小和简化预测的同时在建模数据时提供更好的预测力的子集。

例如,体育统计包括数字数据,如玩的游戏、平均每场比赛时间和得分,所有这些都是由玩家分解的。在这种情况下,特征提取包括将这些统计数据压缩成派生数字,如每场比赛得分或平均得分时间。然后,特征选择就变成了这样一个问题:你是仅仅使用这些比例来构建模型,还是原始的统计数据仍然帮助模型做出更准确的预测。

用于信号和图像数据的手动特征提取需要信号和图像处理知识,尽管自动化技术如小波变换证明非常有效。即使您对信号数据应用深度学习,这些技术也是有用的,因为深神经网络在原始信号数据中未揭示结构揭示结构。从文本数据中提取特征的传统方法是将文本建模为一袋单词。现代方法应用深度学习,以编码单词的背景,例如流行的单词嵌入技术word2vec

特征变换包括流行的数据预处理技术,如归一化处理特征尺度上的巨大差异,但也有聚合来总结数据,过滤去噪,和降维技术,如PCA和因子分析。

MATLAB支持多种特征选择方法金宝app®。有些是基于重要性的排名特征,这可能是最基本的与响应的相关性。一些机器学习模型在学习算法(“嵌入式”特征选择)中估计特征的重要性,而所谓的基于滤波器的方法推断出一个单独的特征重要性模型。包装器选择方法使用选择标准迭代地添加和删除候选特征。下图提供了特征工程的各个方面的概述,指导从业者为他们的机器学习模型寻找性能特征。

基本功能工程工作流程。

深入学习已知用于将原始图像和信号数据作为输入,从而消除了特征工程步骤。虽然适用于大型图像和视频数据集,但在应用深度学习到较小的数据集和基于信号的问题时,功能工程仍然仍然至关重要。

要点

  • 特征工程对于应用机器学习至关重要,以及对深度学习的应用来说也是相关的。
  • 小波散射不需要人工提取特征,就能从信号和图像数据中获得良好的特征
  • 额外的步骤,如特性转换和选择,可以产生更精确、更小的特性集,适合部署到硬件受限的环境中。

例子

应用最小冗余最大相关性(MRMR)算法对特征进行排序FSCMRMR.函数在MATLAB中产生良好的分类特征,无需长时间运行,如在这个例子。重要性分数大幅下降意味着您可以自信地确定用于模型的功能的阈值,而小滴表示您可能必须包括许多其他功能,以避免产生的模型的准确性损失。

MRMR只适用于分类问题。对于回归,附近的成分分析是一个很好的选择,可用的MATLAB asfsrnca

参见:特征提取,特征选择,聚类分析,小波工具箱