特征工程是将原始数据转化为特征供机器学习使用的过程。特征工程是困难的,因为从信号和图像中提取特征需要深入的领域知识,并且即使使用自动化方法,找到最好的特征基本上仍然是一个迭代过程。
特性工程包含以下一个或多个步骤:
例如,体育统计包括数字数据,如玩的游戏、平均每场比赛时间和得分,所有这些都是由玩家分解的。在这种情况下,特征提取包括将这些统计数据压缩成派生数字,如每场比赛得分或平均得分时间。然后,特征选择就变成了这样一个问题:你是仅仅使用这些比例来构建模型,还是原始的统计数据仍然帮助模型做出更准确的预测。
用于信号和图像数据的手动特征提取需要信号和图像处理知识,尽管自动化技术如小波变换证明非常有效。即使您对信号数据应用深度学习,这些技术也是有用的,因为深神经网络在原始信号数据中未揭示结构揭示结构。从文本数据中提取特征的传统方法是将文本建模为一袋单词。现代方法应用深度学习,以编码单词的背景,例如流行的单词嵌入技术word2vec。
特征变换包括流行的数据预处理技术,如归一化处理特征尺度上的巨大差异,但也有聚合来总结数据,过滤去噪,和降维技术,如PCA和因子分析。
MATLAB支持多种特征选择方法金宝app®。有些是基于重要性的排名特征,这可能是最基本的与响应的相关性。一些机器学习模型在学习算法(“嵌入式”特征选择)中估计特征的重要性,而所谓的基于滤波器的方法推断出一个单独的特征重要性模型。包装器选择方法使用选择标准迭代地添加和删除候选特征。下图提供了特征工程的各个方面的概述,指导从业者为他们的机器学习模型寻找性能特征。
深入学习已知用于将原始图像和信号数据作为输入,从而消除了特征工程步骤。虽然适用于大型图像和视频数据集,但在应用深度学习到较小的数据集和基于信号的问题时,功能工程仍然仍然至关重要。
要点
- 特征工程对于应用机器学习至关重要,以及对深度学习的应用来说也是相关的。
- 小波散射不需要人工提取特征,就能从信号和图像数据中获得良好的特征
- 额外的步骤,如特性转换和选择,可以产生更精确、更小的特性集,适合部署到硬件受限的环境中。