第二章

收集数据

训练一个网络与深度学习需要大量的质量标签数据。这一章看不同的方式访问和收集这些数据。

为什么如此多的训练数据有必要吗?

不管你选择什么方法设计你的分类算法,你所需要的数据。即使你正在构建一个基于规则的算法,你必须了解你的系统的输入,它会看到为了能够写这些规则。

这组数据之间的差异和深入学习系统需要什么样的培训主要是数量的问题。

当你设计一个基于规则的算法,你带上多年的经验和知识的问题,这有助于你快速把某些方法或思想显然不是解决问题的办法。然而,除非你开始部分训练模型,深层神经网络训练没有经验或从现有的知识。它不知道什么是显而易见的。

因此,它需要更多的例子的标签数据网络理解甚至像上升的边缘信号的基本概念,更不用说这些边缘结合到你想的更抽象的模式分类。

因此,在这种方式,深度学习使用更多的数据来抵消人类通常会带来的经验和知识。

你的网络只会一样好你提供的标签的训练数据,所以重要的是,你可以访问数据覆盖整个解空间。这里有几种方法来获取标记数据。你可以选择一个或的组合方法取决于你解决问题的类型。

你可以从头开始构建一个数据库从传感器通过收集你的数据。在某些情况下,与自主车辆,这是一个好方法收集数据,因为有数十亿车辆在路上的每一个可能的环境和驾驶条件,您可以简单地记录下他们的传感器数据。然后,随着时间的推移和数以百万计的驱动英里和无数小时的标签,一个数据库建立。

首先,收集自己的数据似乎是一个简单和明显的方法来建立一个数据集;然而,有些事情需要考虑。

例如,你需要确保你收集数据在整个解空间。例如,如果您的网络应该识别人类语言中的词,那么你需要训练数据,不仅涵盖了每一个口语,但也有人说同一个词的不同方法。如果你只训练子集的口音,你会适合您的模型,这些口音,它不会学习的整个范围的问题。

一旦你收集所有的数据,您需要标签…这是一个不小的任务!

如果你足够幸运,你可能会发现你所有的标记现有数据库中的数据。例如,如果您正在设计一个网络,可以识别常见的图像中的对象,您可以使用ImageNet,超过1400万标记图像。

还有音频数据集包含标签的例子歌曲,演讲,和其他的声音。另外,还有其他数据集与创建不同类型的信号。

如果一个现有的数据库不包含你需要的所有训练数据,你可以增加数据集通过添加您自己的标记数据来填写任何缺失的空白和修改现有的数据覆盖更大的解空间。

修改现有数据的两个例子是调整人类语言的音调和旋转和缩放手写字符。

语音识别:音频数据库可能有一组单词由一个扬声器;通过复制数据集和调整频率,你可以训练你的网络识别演讲发生在比原始数据库包含不同的音高。

字符识别:现有数据库的手写字符可能只包含图像缩放和旋转,这样每个字符都是一样的大小和方向。如果你想让你的网络能够认出笔迹在不同尺度或书面倾斜,可以增加原始数据库通过复制数据集和调整的规模和方向。

但是,如果您的工程问题是独一无二的,它可能增加或扩展现有数据库的情况几乎一样大的问题从头创建自己的数据库。

如果你了解你的物理问题,建立一个模拟,你可以用它来合成训练数据。合成数据的一个好处是,几乎是免费的,因为你需要的标签标签生成数据放在第一位。

合成数据的情况下也可以使用它太贵或危险收集真实的数据。例如,它可能是更便宜的来模拟一个机器人在许多不同的情况下失败可能导致损坏的机器人硬件而不是试图建立一个物理场景来收集数据。

另一方面,如果你想建立一个自己的网络,可以在音频信号分类的话,可能是没道理来模拟人说的话,因为那是更加困难比收集很多真正的音频。所以,你必须决定如果合成数据,实际数据,或两者的结合是正确的你的问题。

对于数据合成的一个例子,看看MATLAB的例子雷达和通讯波形分类使用深度学习。在这个例子中,深度学习用于火车CNN识别射频波形调制类型。

一个调制类型的网络应该是线性调频(lem)进行分类,如下图所示为一个载波频率,扫描带宽,脉冲宽度和扫描方向。

这是最理想的模式,但有很多事情可以影响这个信号:天气,从无线电电子硬件扭曲,并反射天线附近的障碍,以及许多其他的噪声来源和错误。

下面的每个信号线性调频脉冲波形的不同。

波形分类器需要能够理解这些信号的独特功能,使其线性频率调节。因此,解决方案空间(整个组条件和情况下,分类算法需要工作)是巨大的,和你的训练数据集需要覆盖所有。这就是深度学习和综合数据是有益的。

由于射频调制方案和障碍产生的噪音是如此有名,他们是一个完美的候选人综合训练数据。在这个例子中,10000帧生成每个调制类型;下面的图显示了一个示例波形的帧数。

这种合成数据用于训练网络。真正的考验是这个网络可以标签真正的射频数据。像任何模型,您想要验证和测试这网络硬件上使用写实的场景。