特征提取是指在保留原始数据集信息的同时,将原始数据转化为可以处理的数字特征的过程。它的效果比直接对原始数据进行机器学习要好。
特征提取可手动或自动完成:
- 手动特征提取需要识别和描述与给定问题相关的特征,并实现提取这些特征的方法。在许多情况下,对背景或领域有良好的理解有助于做出明智的决定,确定哪些特性是有用的。经过几十年的研究,工程师和科学家已经开发出图像、信号和文本的特征提取方法。一个简单特征的例子是信号中一个窗口的平均值。
- 自动特征提取使用专门的算法或深度网络从信号或图像中自动提取特征,而不需要人工干预。当您想快速从原始数据转向开发机器学习算法时,这种技术非常有用。小波散射是自动特征提取的一个例子。
随着深度学习的发展,特征提取在很大程度上已经被深度网络的第一层所取代——但主要用于图像数据。对于信号和时间序列应用,特征提取仍然是第一个挑战,需要大量的专业知识才能建立有效的预测模型。
信号和时间序列数据的特征提取
特征提取可以识别信号中最具辨识性的特征,而机器学习或深度学习算法更容易利用这些特征。直接使用原始信号进行训练的机器学习或深度学习,由于数据速率高和信息冗余,往往会产生较差的结果。
自动特征提取方法
新的高级方法已经出现,可以自动从信号中提取特征。自编码器、小波散射和深度神经网络常用来提取特征和降维数据。
小波散射网络自动从实值时间序列和图像数据中提取低方差特征。这种方法产生的数据表示使类内的差异最小化,同时保持类间的可辨别性。小波散射在没有大量数据的情况下工作得很好。
图像数据的特征提取
图像数据的特征提取将图像有趣的部分表示为一个紧凑的特征向量。在过去,这是通过专门的特征检测、特征提取和特征匹配算法来完成的。今天,深度学习在图像和视频分析中非常流行,它可以将原始图像数据作为输入,跳过特征提取步骤。不管哪种方法,计算机视觉应用,如图像配准、目标检测和分类,和基于内容的图像检索,都需要有效的图像特征表示,隐式的第一层深度网络,或者显式地应用一些长期存在的图像特征提取技术。