工程- MATLAB和Simulink功能金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

使用领域知识和转换从原始数据中提取和优化功能

特性的过程工程是将原始数据转化为功能使用机器学习。工程特点是困难的,因为从信号中提取特征和图像需要深厚的领域知识和找到最好的功能从根本上仍然是一个迭代的过程,即使你应用自动化的方法。

特性工程包括一个或多个以下步骤:

特征提取生成候选特征
功能转换,这地图特性使他们更适合下游建模
特征选择识别子集提供更好的预测能力的建模数据,同时减少模型的大小和简化预测。

例如,体育统计包括数值型数据,如比赛平均每场比赛时间和得分,所有分解的球员。特征提取在这个上下文包含压缩这些统计数据派生数据,如分或平均时间的分数。然后特征选择成为一个问题,你是否使用这些比率,建立一个模型或原始数据是否仍然帮助做出更准确的预测模型。

手动信号和图像数据的特征提取需要的信号和图像处理的知识,尽管自动化等技术小波变换已被证明非常有效。这些技巧是很有用的,即使你应用深度学习信号数据以来深神经网络很难发现在原始信号数据结构。从文本数据中提取特征的传统方法是建模文本袋的话。现代方法应用深度学习编码上下文的话,比如广受欢迎的词嵌入技术word2vec。

功能转换包括流行的数据准备技术,如标准化解决大型规模的差异特性,而且聚合总结数据,过滤去除噪声和降维技术,如主成分分析和因子分析。

许多特征选择方法是由MATLAB金宝app^®。一些排名是基于特征的重要性,可以作为基本的相关性与响应。一些机器学习模型估计特征的重要性在学习算法(“嵌入式”特征选择),而所谓的基于过滤器的方法推断出一个单独的模型特性的重要性。包装器选择方法迭代地添加和删除候选人特性使用选择标准。下图概述功能的各个方面工程指导从业者找到性能特性的机器学习模型。