使用领域知识和转换从原始数据中提取和优化功能
特性的过程工程是将原始数据转化为功能使用机器学习。工程特点是困难的,因为从信号中提取特征和图像需要深厚的领域知识和找到最好的功能从根本上仍然是一个迭代的过程,即使你应用自动化的方法。
特性工程包括一个或多个以下步骤:
例如,体育统计包括数值型数据,如比赛平均每场比赛时间和得分,所有分解的球员。特征提取在这个上下文包含压缩这些统计数据派生数据,如分或平均时间的分数。然后特征选择成为一个问题,你是否使用这些比率,建立一个模型或原始数据是否仍然帮助做出更准确的预测模型。
手动信号和图像数据的特征提取需要的信号和图像处理的知识,尽管自动化等技术小波变换已被证明非常有效。这些技巧是很有用的,即使你应用深度学习信号数据以来深神经网络很难发现在原始信号数据结构。从文本数据中提取特征的传统方法是建模文本袋的话。现代方法应用深度学习编码上下文的话,比如广受欢迎的词嵌入技术word2vec。
功能转换包括流行的数据准备技术,如标准化解决大型规模的差异特性,而且聚合总结数据,过滤去除噪声和降维技术,如主成分分析和因子分析。
许多特征选择方法是由MATLAB金宝app®。一些排名是基于特征的重要性,可以作为基本的相关性与响应。一些机器学习模型估计特征的重要性在学习算法(“嵌入式”特征选择),而所谓的基于过滤器的方法推断出一个单独的模型特性的重要性。包装器选择方法迭代地添加和删除候选人特性使用选择标准。下图概述功能的各个方面工程指导从业者找到性能特性的机器学习模型。
深度学习已成为以原始图像和信号数据作为输入,从而消除特性工程的步骤。,适用于大型图像和视频数据集,特性工程仍然是良好的性能在应用深度学习的关键更小的数据集和ieee的问题。
要点
- 特性为机器学习应用工程是至关重要的,并与应用程序相关的深度学习信号。
- 从信号小波散射提供了良好的功能没有手动特征提取和图像数据
- 额外的步骤如功能转换和选择能产生更精确更小的特性适合部署到硬件受限环境。