深度学习的工程师,第3部分:数据预处理和短时傅里叶变换

布莱恩•道格拉斯

数据在其原始形式可能不适合培训网络。有改变自己的习惯就会所需的数据,往往有时需要使训练速度更快,更简单,并确保它是收敛的一个解决方案。

这个视频包括三个原因为什么深度学习系统是重要的预处理:

将数据转换成一种适用于网络架构
减少数据的维度,使图案更加明显
调整训练数据,确保覆盖整个解空间

上一节,我们讨论我们如何需要数据来训练一个分类网络。然而,在很多情况下,数据在其原始形式,它的形式是收集,可能不适合培训网络。有些变化我们可以使所需的数据,往往有时必要为了使训练速度更快,更简单,或者确保它收敛在一个解决方案。所以在这个视频中这就是我们要讲的。具体地说,我想要强调几个不同的数据预处理方法,以及为什么它是如此重要的深度学习工作流程。

现在,就像每一个视频在本系列中,这并不是旨在涵盖所有你需要知道的。但希望,这至少会让你思考你自己的特殊工程问题和预处理,为了成功地实现深度学习。我希望你留下来。我是布莱恩,欢迎来到MATLAB技术说话。

数据预处理是一个非常广泛的术语。它基本上是你做的任何事都之前的原始数据输入到您的特定机器学习操作。这是非常重要的原因至少有三个;,预处理可以将数据转换成一种适用于网络体系结构,两个,它可以帮助减少数据的维度,使模式更明显,第三,它可以调整训练数据,以确保整个解空间。

让我们走过每一个这样的一个例子希望他们多一点意义。我们先把数据。

输入网络的数量是固定的元素你喂进去。这意味着您的数据需要形成离散的数据包都有相同数量的元素。如果您正在使用图片,每个图片需要相同的大小可能意味着预处理的一部分是作物,拉长或调整图像,没有正确的尺寸。

同样的如果您正在使用的信号,而不是图片。的长度和采样率信号需要一致,或再次种植,填充,和重采样是必需的。这只是一个简单的例子强调网络体系结构和数据需要相互一致,但是还有许多其他的事情像确保单位是正确的。但这种重新格式化数据做预处理的原因之一。

第二个原因,空间减少,最好记住,深度学习列车网络识别数据中的模式。所以不需要任何信息,认识到你正在寻找的模式可以删除而不影响整体的分类。删除无关的数据使剩下的模式更明显,这将帮助学习过程。一般来说,如果模式更明显的人类,他们会更明显的深度学习算法。

但降低数据的维数的其他好处是因为所谓的维度的诅咒,更多的尺寸意味着更多的特性和变化的每个特性,因此需要更多的训练数据来覆盖所有可能的组合。所以,不仅与高维数据本身更大,但你需要更多的训练网络。所以,总体需要更多网络复杂性,更多的数据存储,和更多的时间来训练。

例如,把这两个图片的4号,扩展到两个不同的决议。金宝搏官方网站我们可以告诉这两个是4号尽管右边有更少的像素,或较低的维度。这是因为定义特征构成4号仍然存在两个决议。金宝搏官方网站通过这种方式,网络训练仍然可以设置的低分辨率图像作为数字分类器以及一个训练有素的高分辨率图像。

现在让我们来看看一个稍微不同的四个,再决议。金宝搏官方网站你可以看到两个实例的细节略有不同,这是拿起好分辨率越高,但主要是失去了在低分辨率。

这就是维数的诅咒。网络训练的高分辨率图像可能聚集在一个解决方案,认为这个小尾巴是4的一个定义特征,因此分类这一个,因为它没有尾巴。但由于缺乏这样的细节,分辨率越低,网络几乎别无选择,只能聚集在广泛的真正定义数量的细节。你可能会想,为什么不高分辨率网络学习也认识到更广泛的功能?它可以好!只是需要更多的训练数据的网络图,这些小的细节,我们在不影响较大的分类。

现在平局回到降维是,你必须了解你的数据,你可以减少维而不是只要不小心删除重要的信息从你的数据集。

例如,假设我们要训练一个网络,可以直观地识别制造缺陷在六角螺帽。它不会是一个好主意来减少这些图像的大小的范围缩小。缺陷或模式我们正在寻找非常小,我们失去了区分它们的细节。在这种情况下,一个更好的降维方法可能是作物图像。

有很多不同的方法来减少维度比如去除噪音或删除趋势的数据,但是不管你做,关键是我们要删除任何组件从我们的数据集,我们知道不重要,网络没有学习,那并不重要。

好了,最后一个数据预处理的好处,我想讲的是用它来覆盖更大的解决方案的一部分空间。网络只能从你给它的训练数据。所以,如果你想要一个可以识别的网络数字4在各种不同的写作风格,是有道理的,你需要几个不同的例子,人们写数量4。然而,写作风格并不是唯一的变量会影响一个好的分类。有时可能写数量以这样或那样的方式旋转,或者有点更大或更小。问题是所有这些4的网络培训,无法分类这些旋转和缩放4的,因为它不是训练。

现在,而不是为每一个变化,收集实际带安全标签的数据时,我们可以简单的重复训练数据进行预处理,通过旋转和缩放整个解空间。或者,另一方面我们需要无标号数据,可以缩放和旋转,然后进行预处理,把它放到一个方向和大小网络已经训练了。因此,在这些例子中我们可以操作数据覆盖更大的解空间。

好,这是一个快速概述数据预处理。主要结论是,您想要使用你的一些专业技能和知识改变原始数据,使学习成为可能,更快,更准确。

给你的感觉,这可能是什么样子在一个案例中,我想讨论的预处理在MATLAB中的音频数据的示例中,使用深度学习语音命令识别。

这个例子向您展示了如何训练一组卷积神经网络识别给定的口头命令。你可以穿过整个事情如果你想看到所有的细节,但是我想告诉你的是多少做预处理是为了准备培训的音频信号。卷积神经网络寻找模式的形象,所以我们必须将音频信号转换为二维图像包含可识别的模式,可以用来区分每个可能的口头命令。

这个特定的图像称为光谱图。我认为值得解释如何创建这幅图像的一些细节,因为我认为它很好地展示了你可能会想什么当你是你自己的数据预处理。

好了,我这里有一个音频波形我说允许这个词。记录在44.1 kHz,长约0.8秒。我们要做的第一件事是确保这个音频段长度一样的所有其他音频,我们可能想要与我们的网络分类。因为有些单词可能需要更长的时间比0.8秒说,我决定扩展这个到底是1秒。我通过填充与零信号的开始和结束。

如果我们把这个信号的FFT我们可以了解哪里有最频率的内容。因为这个被记录为44.1 kHz,约22 kHz频率信息,但正如你所看到的没有很多的信息在更高的频率。我要重新取样的音频信号16赫兹将捕捉到8 kHz信号和它不会造成任何重大质量损失。

好了,这是整个信号频率的内容并不是我们想要的。正如我们所说,内容更改频率基于音节的声音和我们说,我们希望能够挑出那些个人声音的话,所以我们需要了解内容的频率会随着时间而改变。我们可以用短时傅里叶变换。

我们先选择一个窗口大小,小于完整的信号,然后运行一个FFT的数据子集。我选择一个窗口,是有点,你可以看到超过180毫秒的音频是什么样子。

现在,有一个问题上运行一个FFT这音频段完全一样,这是FFT是期望信号重复。如果我一行几人一个接一个,你会发现这是我们创建的不连续。这个跳人为地添加一些高频内容和使我们的光谱图比它应该吵着。

因此,为了解决这个问题我们应用一个窗口函数。有很多不同的窗函数,但在本例中,我使用一个损害的功能。细节真的不重要,因为所有窗口功能背后的一般思想主要是相同的。他们在零的开始和结束,有一些扩展。因为窗口函数开始和结束为零,当我用它的音频段保证产生的信号也开始和结束为零,意味着不会有间断重复。现在这个比例修复不连续,但我们正在失去一些信息窗口的边缘附近,但很快我将向您展示,这就是为什么窗户重叠。

好,现在我们可以把这个比例的FFT信号,红色的线,我们可以看到,没有很多的内容,我们知道,因为这个词还没有开始。但是如果我们滚动起来我们可以移动到下一个窗口,我与前一个50%重叠。再次我们花时间数据和规模与损害的功能。注意,重叠的窗口,失去了的信号,在第一个窗口出现在第二个。所以,我们捕捉信息。

好吧,我们把这个由跳窗户在整个信号,应用窗口函数,然后利用FFT。我只是显示第一个4 windows所以你懂的,但是如果我们一直在整个信号我们剩下的是频率窗口内容。但在这里,再一次我们有比我们实际需要的更多的信息。每个FFT产生频谱与成千上万的价值观和我们不需要的粒度级别。

减少信息的一个常见的方法是通过将频谱分割为一些垃圾箱,然后缩放和加法的频率在每一本与梅尔过滤器银行——这是一组三角形带通滤波器,在较低的频率间隔的靠近,然后逐渐得到广泛和远随着频率增加。从本质上讲,这是一种模型的敏感性的人耳对高频率低于我们更敏感。所以,我们基本上只是获取更好的在较低的频率分辨率。也,三角形滤波器的频率内容在中间每一本比频率加权求和偏重于附近的边缘。捕捉这些信息在边缘附近,我们再次重叠垃圾箱。

毕竟我们最终的装箱和过滤和总结是这样的。每本代表一个值的频率含量小的光谱。在这儿我这些彩色方块基于频率的大小,但它们看起来都黑没有太多信息。但如果我们把这个装箱和扩展我们的窗户你可以看到,这里有一些有趣的内容,这内容变化从一个窗口到另一个频率。

,现在我们有了所有这些信息,本和窗口,要做的最后一件事就是把所有这一切放在一个图像。第一个窗口放置在左侧图像的频率最低的本底。然后我们将下一个窗口旁边,和下一个,直到我们已经在整个信号,我们已经创建了一个谱图。这是很酷对吗?这是一种整洁,我们可以创建一个图像的音频信号。

好的,希望你可以看到当我们回到MATLAB的例子中,这个蓝色的形象代表这音频信号的频率内容。

但更重要的是,希望你可以看到明显的模式在这个光谱图——更比你可以在波形。和他们独特的事实上,我敢打赌,即使你可以使用这样的模式来确定单词。来证明这一点,看看这个谱图我说允许,芦荟、合金和盟友。

尽管这些话是多么的密切,他们在这个光谱图所有的模式定义特征,使它们彼此不同。如果我说一个单词,你可以确定我仅从谱图就说。这就是独特的模式,深入学习算法和卷积神经网络可以茁壮成长。

好的,我现在就离开了。如果你想了解更多,我把一堆链接的描述不同的MATLAB工具帮助与特征提取和数据预处理,和几个例子展示了这些工具在图像、音频等信号。

下一节,我想谈谈我们如何构建现有pre-trained网络传输的学习。所以,如果你不想错过,或任何其他技术视频说话,别忘了订阅这个通道。同样,如果你想看看我的通道,控制系统讲座,我控制覆盖更多的话题。谢谢收看,下次再见。