工程特性

使用领域知识和转换从原始数据中提取和优化功能

特性的过程工程是将原始数据转化为功能使用机器学习。工程特点是困难的,因为从信号中提取特征和图像需要深厚的领域知识和找到最好的功能从根本上仍然是一个迭代的过程,即使你应用自动化的方法。

特性工程包括一个或多个以下步骤:

  1. 特征提取生成候选特征
  2. 功能转换,这地图特性使他们更适合下游建模
  3. 特征选择识别子集提供更好的预测能力的建模数据,同时减少模型的大小和简化预测。

例如,体育统计包括数值型数据,如比赛平均每场比赛时间和得分,所有分解的球员。特征提取在这个上下文包含压缩这些统计数据派生数据,如分或平均时间的分数。然后特征选择成为一个问题,你是否使用这些比率,建立一个模型或原始数据是否仍然帮助做出更准确的预测模型。

手动信号和图像数据的特征提取需要的信号和图像处理的知识,尽管自动化等技术小波变换已被证明非常有效。这些技巧是很有用的,即使你应用深度学习信号数据以来深神经网络很难发现在原始信号数据结构。从文本数据中提取特征的传统方法是建模文本袋的话。现代方法应用深度学习编码上下文的话,比如广受欢迎的词嵌入技术word2vec

功能转换包括流行的数据准备技术,如标准化解决大型规模的差异特性,而且聚合总结数据,过滤去除噪声和降维技术,如主成分分析和因子分析。

许多特征选择方法是由MATLAB金宝app®。一些排名是基于特征的重要性,可以作为基本的相关性与响应。一些机器学习模型估计特征的重要性在学习算法(“嵌入式”特征选择),而所谓的基于过滤器的方法推断出一个单独的模型特性的重要性。包装器选择方法迭代地添加和删除候选人特性使用选择标准。下图概述功能的各个方面工程指导从业者找到性能特性的机器学习模型。

基本特征工程工作流程。

基本特征工程工作流程。

深度学习已成为以原始图像和信号数据作为输入,从而消除特性工程的步骤。,适用于大型图像和视频数据集,特性工程仍然是良好的性能在应用深度学习的关键更小的数据集和ieee的问题。

要点

  • 特性为机器学习应用工程是至关重要的,并与应用程序相关的深度学习信号。
  • 从信号小波散射提供了良好的功能没有手动特征提取和图像数据
  • 额外的步骤如功能转换和选择能产生更精确更小的特性适合部署到硬件受限环境。

例子

排名功能通过应用最小冗余最大相关性(MRMR)算法的实现fscmrmr在MATLAB函数收益率好的特性分类没有长时间运行时,作为证明这个例子。大滴的重要性分数意味着你可以自信地确定的阈值特性使用为您的模型,而小滴表明你可能要包括很多附加功能,以避免重大损失结果模型的准确性。

MRMR只适用于分类问题

MRMR只适用于分类问题。对于回归,附近的成分分析是一个很好的选择,可以在MATLABfsrnca

参见:特征提取,特征选择,聚类分析,小波工具箱,生物医学信号处理