工程特性

使用域知识和转换来提取和优化原始数据的功能

特征工程是将原始数据转化为机器学习使用的特征的过程。特征工程是困难的,因为从信号和图像中提取特征需要深入的领域知识,而寻找最佳特征基本上仍然是一个迭代过程,即使您使用自动化方法。

特性工程包含以下一个或多个步骤:

  1. 特征提取生成候选功能
  2. 功能转换,映射功能使其更适合下游建模
  3. 特征选择识别在降低模型大小和简化预测的同时在建模数据时提供更好的预测力的子集。

例如,体育统计数据包括玩家玩过的游戏、每场比赛的平均时间和得分等数字数据。在这种情况下,特征提取包括将这些统计数据压缩成派生的数字,如每场比赛的得分或平均得分时间。然后,特征选择就变成了一个问题:您是仅仅使用这些比率来构建模型,还是原始统计数据仍然有助于模型做出更准确的预测。

用于信号和图像数据的手动特征提取需要信号和图像处理知识,尽管自动化技术如小波变换证明非常有效。即使您对信号数据应用深度学习,这些技术也是有用的,因为深神经网络在原始信号数据中未揭示结构揭示结构。从文本数据中提取特征的传统方法是将文本建模为一袋单词。现代方法应用深度学习,以编码单词的背景,例如流行的单词嵌入技术word2vec

特征变换包括流行的数据准备技术,如标准化以处理特征规模上的巨大差异,但也聚合以总结数据,滤波以去除噪声,以及降维技术,如PCA和因子分析。

MATLAB支持多种特征选择方法金宝app®。有些是基于重要性的排名特征,这可能和与响应的相关性一样基本。一些机器学习模型在学习算法中估计特征的重要性(“嵌入式”特征选择),而所谓的基于过滤器的方法推断特征重要性的单独模型。包装器选择方法使用选择标准迭代地添加和删除候选特征。下图提供了特征工程的各个方面的概述,以指导实践者为他们的机器学习模型寻找性能特征。

基本功能工程工作流程。

深入学习已知用于将原始图像和信号数据作为输入,从而消除了特征工程步骤。虽然适用于大型图像和视频数据集,但在应用深度学习到较小的数据集和基于信号的问题时,功能工程仍然仍然至关重要。

要点

  • 特征工程对于应用机器学习至关重要,以及对深度学习的应用来说也是相关的。
  • 小波散射可以从信号和图像数据中提供良好的特征,而无需人工提取特征
  • 额外的步骤,如特性转换和选择,可以生成更精确但更小的特性集,适合部署到受硬件限制的环境中。

例子

采用最小冗余最大关联(MRMR)算法对特征进行排序FSCMRMR.函数在MATLAB中产生了良好的分类特性,而不需要长时间运行,如这个例子。重要性分数大幅下降意味着您可以自信地确定用于模型的功能的阈值,而小滴表示您可能必须包括许多其他功能,以避免产生的模型的准确性损失。

MRMR仅适用于分类问题。对于回归,附近的成分分析是一个很好的选择,可用在MATLAB中的fsrnca

参见:特征提取特征选择聚类分析小波工具箱