从系列中:应用机器学习
亚当•Filion MathWorks
探索如何执行特征工程,这是一种将原始数据转换为适合机器学习算法的特征的技术。
特征工程从您的 最佳猜测 关于什么 特征 可能会影响你试图预测的行为。之后,这是一个迭代过程,您可以在其中创建新功能,将它们添加到您的模型中,并查看您的结果是否有所改进。
本视频提供了该主题的高级概述,并使用几个示例来说明特征工程背后的基本原理,以及从信号、文本和图像中提取特征的既定方法。
机器学习算法并不总是在原始数据上工作得很好。作为工程师和科学家,我们的部分工作是转换原始数据,使系统的行为对机器学习算法更加明显。这被称为特征工程。
特性工程从您对哪些特性可能影响您试图预测的事情的最佳猜测开始。之后,这是一个迭代过程,您可以在其中创建新功能,将它们添加到您的模型中,并查看结果是否有所改善。
让我们举一个简单的例子,我们想要预测一个航班是否会延迟。
在原始数据中,我们有飞行月份、目的地和一周的日期等信息。
如果我用决策树来匹配这个数据,我将得到70%的准确率。我们还能从这些数据中计算出什么来帮助改进我们的预测呢?
那么,每天的航班数量呢?有些日子的航班比其他日子多,这可能意味着它们更有可能被延误。
我已经从我的数据集在应用程序中有这个功能,所以让我们添加它并重新训练模型。你可以看到模型的精度提高到了74%。只是添加一个功能就已经不错了。
功能工程通常被认为是一种创造性的过程,更像是一种艺术而不是一门科学。没有正确的方法来做这件事,但如果你有领域专业知识和对数据的扎实理解,你将处于执行特性工程的有利位置。正如您稍后将看到的,用于特性工程的技术是您可能已经熟悉的东西,但在此之前您可能没有想到过它们。
让我们看另一个更有趣的例子。在这里,我们试图通过对心脏发出的声音进行分类来预测心脏的行为是否正常。
声音以音频信号的形式出现。我们可以设计特征,然后使用这些值来训练模型,而不是对原始信号进行训练。
最近,深度学习方法变得越来越流行,因为它们需要更少的手工特征工程。相反,这些特征是作为训练过程的一部分来学习的。虽然这通常显示出非常有希望的结果,但深度学习模型需要更多的数据,需要更长的时间来训练,而且与手工设计特征相比,生成的模型通常更难以解释。
我们用来分类心音的特征来自信号处理领域。我们计算了偏度、峰度和主频。这些计算提取的特征使模型更容易区分异常心音和正常心音。
那么人们还使用哪些其他功能呢?许多人使用传统的统计技术,如平均数、中位数和模式,以及一些基本的东西,如计算事件发生的次数。
很多数据都有一个与之相关的时间戳。您可以从时间戳中提取许多特性,这些特性可能会提高模型性能。一个月、一周中的哪一天、一天中的哪一小时?是周末还是假日?例如,如果你试图预测人们用电量,这些特征在决定人类行为方面起着重要作用。
另一类特征工程与文本数据有关。计算某些单词在文本中出现的次数是一种技术,通常与术语频率反转文档频率等规范化技术相结合。Word2vec是另一种流行的文本特征工程技术,它将单词转换为高维向量表示。
我要讲的最后一类技术与图像有关。图像包含大量信息,因此通常需要提取重要部分。传统技术计算颜色直方图或应用变换,如Haar小波。最近,研究人员开始使用卷积神经网络从图像中提取特征。
根据您正在处理的数据类型,使用我们讨论过的各种技术可能是有意义的。特性工程是一个尝试和错误的过程。知道一个特性是否有用的唯一方法是将它添加到模型中,并检查它是否改善了结果。
最后,这是对特性工程的简要解释。在我们的网站上有更多的例子,所以去看看吧。
你也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。