Johanna Pingel,MathWorks
加布里埃尔·哈,马修斯
概述
虽然深度学习可以在对象识别和对象检测方面达到最先进的精度,但深度学习模型的训练、评估和比较可能会很困难。深度学习还需要大量的数据和计算资源。
在本次网络研讨会中,我们将探讨如何使用MATLAB®解决最常见的深度学习挑战,深入了解培训准确深度学习模型的过程。我们将介绍用于对象识别和对象检测的深度学习和计算机视觉的新功能。
突出了
我们将使用真实世界的例子来演示:
的主持人
Johanna Pingel于2013年加入MathWorks团队,专攻图像处理和MATLAB计算机视觉应用。她拥有伦斯勒理工学院的硕士学位和卡内基梅隆大学的学士学位。她在计算机视觉应用领域工作了5年多,专注于目标检测和跟踪。
录制时间:2017年8月2日
您好,我的名字是Johanna在这里与加布里埃尔,我们将讨论电脑愿景的深度学习。我们有一些伟大的新演示和能力向您展示。让我们开始。
是的,我们先来设定一些背景。我们的网站上还有其他深度学习视频,比本次网络研讨会短得多,你也应该观看。但最重要的是,与其他视频相比,我们将在本次网络研讨会上深入探讨更多内容。我们在谈论计算机视觉的深度学习。什么是深度学习?这是一种机器学习,直接从数据中学习特征和任务,数据可以是图像、文本或声音。
既然我们讨论的是计算机视觉,我们自然会关注图像数据。但请记住,深度学习适用于许多其他不处理图像的任务。
对。让我们来看看深度学习作品的快速工作流程。假设我们有一组图像,其中每个图像包含一个或四种不同的对象。我们希望可以自动识别每个图像中哪个对象的东西。我们从标记的图像开始,这只是意味着我们告诉深度学习算法图像包含的内容。通过该信息,它开始了解对象的特定功能,并将它们与相应的类别相关联。
你会注意到任务是直接从数据中学习的,这也意味着我们对学习什么特性没有任何影响。你可能会听到这被称为端到端学习,但无论如何,要记住,深度学习直接从数据中学习特性。
这就是深度学习的基本流程。虽然深度学习的概念已经出现了一段时间,但由于这些分类器的准确性大大提高,以至于它们在分类图像方面优于人类,它在最近变得更加流行。因此,也有几个因素使深度学习成为可能,包括大量的标记数据,强大的gpu加速训练,以及使用其他人的工作作为起点来训练自己的深度神经网络的能力,这一点我们将在后面讨论。
是的,我们会的。所以在我们深入讨论之前,我们想给你们一些背景知识和框架来说明我们为什么要做这个网络研讨会。深度学习是困难的。这是一项尖端技术,它可能会变得很复杂,无论你是在处理网络架构,理解如何训练一个精确的模型,还是整合成千上万的训练图像。
是的,更不用说每个人最喜欢的任务了——试着弄清楚为什么有些东西不起作用。
我们希望MATLAB使深度学习容易和可访问的每个人。在本次网络研讨会中,我们将介绍如何使用MATLAB快速入门深度学习。我们的网络研讨会中的示例还将演示如何处理大量的图像集,轻松集成gpu以更快地训练深度学习模型,理解模型在训练时发生了什么,并基于该领域的专家模型构建模型,因此您不必从头开始。说到这里,我们开始吧。
是的。让我们做它。因此,我们将介绍三个深度学习的例子:使用预先训练的网络进行图像分类,转移学习来分类新对象,以及图像和视频中的目标检测。首先是使用预先训练好的网络进行图像分类。我这里有一张辣椒的图片我想把它分类。信不信由你,我能用MATLAB用四行基本代码就能做到。
一个,导入佩带的模型。二,带来图像。三,调整图像大小。四,分类图像。
好了。
这就是它。
很酷。
好了,接下来看第二个演示
他在开玩笑。
是的,我在开玩笑吧。所以我们会谈谈这里发生了什么。
第一行代码里的AlexNet是什么?谁是亚历克斯,我们为什么要用他的网?
因此,直接回答您的问题,AlexNet是一个由各种人士设计的卷积神经网络,包括一个亚历克斯克里兹韦斯基。但我应该提供一些背景。因此,这项独立项目与Matlab无关,虽然是一段时间,但虽然被称为Imagenet项目。其目标是拥有庞大的视觉内容存储库,如图像,用于人们在视觉对象识别中进行研究和设计。
它开始于2010年。他们举办了一项名为ImageNet大规模视觉识别挑战的年度竞赛。
哦,是的。旧的ILSVRC。
是的,那场比赛。因此,竞争对手提交的软件程序能够在[听不见的]环境中正确分类和检测物体。现在,直到2012年,实现计算机视觉的标准方法是通过一个称为特征工程的过程,而不是AlexNet,它使用并改进了基于深度学习的方法。因此,正如你可能猜到的,AlexNet是在团队名称监督下提交给2012年ILSVRC的,一个词。它把竞争搞得一败涂地,我想这可能是指竞争对手和竞争本身。
关于它有很多炒作,因为人们意识到深度学习不仅仅是理论。它真的很实用,而且比我们以前做的好多了。所以,除了历史课,AlexNet被训练识别1000个不同的物体,我猜这与ILSVRC 2012的胜利条件有关。它是可以从MATLAB访问的几个预先训练过的网络之一,MATLAB还包括VGG-16和19。
我们有历史课吗?
我不会为这些人上历史课。让我们回到我们的四行代码。所以,首先看看MATLAB是如何使导入预训练模型变得非常容易的。就像,没有比这更容易的了。如果您的计算机上没有AlexNet,则只需下载一次,无论是通过附加模块管理器下载,还是在未下载代码的情况下运行代码时使用错误中的链接。现在,您可以将其用于此演示和其他任何您想要的内容。
在第二行,你把图像带进来。这看起来很简单。但是你为什么要调整图像的大小呢?第一次做的时候,我很聪明,只用了三行代码。
没有调整吗?
是 啊我得到了这个错误,它提到了一些关于尺寸的问题,这意味着,耶,我要找出为什么它不起作用。
每个人都喜欢做的事。
如果我使用网络点层,它会告诉我网络的结构。一开始看起来很吓人,但是第一层,输入层,大小是227 * 227像素。最后的x3是RGB值,因为这是一张彩色照片。看到这个,我就想,哦,好吧。只需使用MATLAB来调整图像的大小,这样当它传递到网络时就不会出错。最后一行代码现在可以对图像进行分类了。
你之前提到过AlexNet是一个卷积神经网络。这是什么意思?我可以简称它为CNN吗?
我的意思是,只要观众不要把这个网络研讨会和某个有线新闻网络——有线新闻——搞混了。这就是CNN的意思,不是吗?除了CNN是一个自我参考的有线新闻网络之外,它还是一个用于图像和计算机视觉问题深度学习的流行架构。独立于AlexNet,了解cnn的三件主要事情是卷积、激活和池化。
卷积是一种数学运算你们可能还记得在大学课程中介绍过傅里叶变换和拉普拉斯变换,或好或坏。这个想法是,我们把输入的图像经过多次变换,每一次变换都从图像中提取出特定的特征。激活对卷积的输出应用变换。一个流行的激活函数是ReLU(或ReLU, tomato tomato),它简单地获取输出并将其映射到正最大值。最后,拉拽是一个简化输出的过程,只取一个值到下一层,这有助于减少模型需要了解的参数数量。
因此,这三个步骤被重复,形成了整个CNN架构,它可以有几十或数百层,每一层都学习检测不同的特征。MATLAB的一个优点是它能让你看到特征图。所以如果你比较更接近初始层的特征和更接近最终层的特征,它们会变得越来越复杂,从颜色和边缘到看起来更详细的东西。
让我们再来看看AlexNet的各个层次。你可以看到卷积,激活和池化。其他的网络会有不同的层配置,但在最后,它们都有最后一层来进行分类。再用几行代码,我们就可以重复地显示AlexNet所认为的图像。有时会成功,有时不会。但只要物体在最初的1000个集合中,这就很好了。
这就引出了一个问题,如果不是,你能做什么?
请允许我回答这个问题,这是使用预先训练好的模型进行的图像分类。让我们进入第二个演示。
好吧。在下一个演示中,我们有汽车在高速公路上行驶的视频。我们希望能够将它们分类为轿车、卡车或suv。我们将使用AlexNet并根据我们的对象类别对网络进行微调,这个过程叫做迁移学习,它可以用来对不在原始网络中的对象进行分类。
并有我们对上一个问题的答案。快速跟进给您。因此,如果您有一个分类任务,您的对象发生在1,000中的一个,则是否有任何原因您不仅仅是使用AlexNet。
好问题。在这种情况下,转移学习的主要好处是拥有一个特定于数据的分类器。如果培训的类别较少,则可能会提高准确性。
是有意义的。
我用手机拍下了这段视频我可以用IP网络摄像头自动将它导入MATLAB。这个功能让我可以录下数小时汽车在办公室窗外行驶的视频。现在,利用MATLAB和计算机视觉,我可以根据汽车的运动从每一帧视频中提取出汽车,这个过程相对简单,叫做背景减法。
这只是一个观察两幅连续图像之间像素差异的问题,然后找出差异足够大的东西。
现在,当车辆经过时,我们想把它们分类为轿车、卡车或SUV。而这并不是AlexNet所认为的。所以如果我们现在的模型不能处理我们的数据,我们就需要一个新的模型。假设我们想把五种不同的车辆分类——轿车、卡车、大卡车、suv和面包车。我们的计划是使用AlexNet作为起点,并使用迁移学习创建一个特定于这五个类别的模型。
那么,你为什么要使用迁移学习,而不是从头开始训练网络呢?
所以从头开始训练绝对是可以尝试的。我们提供了MATLAB中的所有工具来实现这一点。但是,有几个非常实际的理由可以替代迁移学习。例如,您不必自己设置网络体系结构,这需要大量的尝试和错误才能找到良好的层组合。此外,与从头开始的训练相比,迁移学习不需要太多的图像来构建准确的模型。最后,您可以利用深度学习领域顶尖研究人员的知识和专业技能,他们花在培训模型上的时间比我们多得多。
听起来不错。
这里有五个文件夹,里面有我们五个类别的很多图片。我们想要一个简单的方法来将这些数据传递给我们的深度学习算法。早些时候,加布里埃尔用imread作为一种引入辣椒形象的方法。但我们不想对每一张图片都这样做。相反,我将使用一个名为图像数据存储的函数,这是引入数据的一种有效方法。
我们应该注意,MATLAB中有许多不同类型的数据存储,用于不同的大数据和数据分析任务。所以这不仅仅是为了图像。如果你有很多数据,数据存储就是你的朋友。
一旦这个点图像数据存储到我的文件夹,它会自动根据包含图像的文件夹的名称给我的所有数据标上标签。所以没必要一个一个地做。一旦我这样做了,我就可以访问有用的功能,比如查看每个类别有多少图像,并能够快速地将图像分割为训练集和测试集。
如果需要,还可以指定自定义读取函数。默认情况下,图像数据存储为imread以读取所有图像,这对于标准图像格式非常有用。但如果您碰巧有imread不知道如何处理的非标准图像格式,您只需编写自己的函数,将其传递到图像数据存储,然后就可以开始了。
甚至如果您确实有标准图像格式,则可以进行自定义读取功能,该读取功能是图像预处理,如调整大小,锐化或去噪。在我们的情况下,使用AlexNet,我们需要将它们调整为227到227。因此,我们在此处使用此自定义读取功能。
我注意到你并没有直接调整大小。看起来你在填充图像。原因是什么?
这只是我的个人经验。我试着调整图片的大小,但是网络做得不太好。当我自己看这些图片时,我分辨不出汽车和越野车的区别。所以我做了一些事情,有相同的效果裁剪图像和保持长宽比。因为这有助于维持结构上的差异,我认为这可能对网络有帮助。之前你们看到AlexNet在对汽车和卡车进行分类方面做得很差。所以我们需要调整网络。
如果我们看看这些层,你可以看到最终完全连接的层代表了AlexNet训练的1000个类别。为了进行迁移学习,我们用5个类别的物体替换1000个。然后这条线重置了分类,这意味着忘掉你学过的1000个物体的名字。你只关心这五个新的。
这就是你唯一需要做的核心改变吗?
是的。这就是您需要做的所有网络操作。如果您运行这个,您将得到一个分类器,它将输出这五个对象中的一个。
所以我想问题是,它做得怎么样?
所以我们事先训练了这个网络,它实际上得到了很好的结果,大约97%的准确率。
就像对代码做了两个小改动,这就很令人印象深刻了。
但是,让我们说实话,你可能无法立即到达那一点。请记住,AlexNet培训了数百万图像,包括一些车辆。因此,假设它发生在非常顺利地转移到我们的数据是合理的。但是,如果您要转移了其他,从原始集合中的截然不同的图像,也许您可能必须进行更多更改。
是有意义的。那么,如果人们发现自己的准确率低于标准,他们可以尝试哪些方法呢?
你可以尝试很多东西。我们将进入快速射击模式。您可以按照此幻灯片进行操作。首先,在开始更改参数之前,您可以做一些事情。检查您的数据。这一点我怎么强调都不过分。起初,我的火车模型对很多图像进行了错误分类。我意识到我的一些数据放错了文件夹。显然,如果你的设置不准确,无论是错误的文件夹还是糟糕的训练数据,你都不会走得很远。
接下来,尝试获取更多数据。有时分类器需要更多的图像来更好地理解问题。最后,尝试不同的网络。我们正在与AlexNet合作,但正如我们提到的,还有其他网络可供你使用。另一家CNN可能会提供更好的结果。
听起来不错。假设我很确定我的设置是正确的。我现在能做什么?
因此,现在的问题是改变网络和培训过程。让我们从网络开始。更改网络意味着添加、删除或修改图层。您可以向网络添加另一个完全连接的层,这会增加网络的非线性,并有助于提高网络的准确性,具体取决于数据。您还可以修改新层的学习权重,使其学习速度快于网络的早期原始层。如果您希望保留网络先前了解到的有关原始数据的丰富功能,这将非常有用。
至于改变培训过程,这是改变培训选择的问题。您还可以尝试更多阶段,更少的阶段和其他选项,以及您可以在我们的网站上找到文档。
所以我这么说很公平。所有的选择似乎都是,你把网络当成黑盒。如果你训练它,但它不是很好,你就对它进行这些修改,让它开始训练,等待整个等待时间,然后你就会发现它是否真的让事情变得更好或更糟。那么在这个过程中,我们能做些什么呢?
绝对的。我们有一组输出函数可以告诉我们网络在训练时发生了什么。第一个图描绘了网络训练时的准确性。理想情况下,您希望看到准确性随时间的推移而上升的趋势。如果你看到的不是这样,你可以停止训练,试着在你浪费大量时间在没有改善的东西上之前修复它。根据某些条件,你也可以提前停止训练。在这里,我告诉网络,如果我的准确率达到99.5%,就停止。
我猜这样你就不会过度训练和过度调整网络了。
是的。我们也有检查站的概念。您可以在特定点停止网络培训,看看测试集中的工作程度如何,然后如果您决定需要更多培训,则您不必从头开始。你可以拿起你离开的训练。正如您所预期的那样,我们的网站有文档供我们许多不同的培训选择。如果您看看这里,您可以看到我刚刚概述的选项 - 绘制训练准确性,并以指定的准确性停止。所以肯定会尝试这些例子。
是的,请。复制粘贴此代码。有些人从来不会复制,粘贴你在网上找到的代码。我明白他们的意思,比如,不要盲目地复制东西,然后期望它能成功。但认真的伙计们,让他谁是没有复制粘贴互联网代码cast第一个错误消息。
你绝对应该复制我们的代码。不用自己编写所有的代码,并且有一些很好的起点来更好地控制培训过程,这很好。
所以,让我们说,我是真正的铁杆要得到我的网络微调,我想消除黑箱方面的网络尽可能多。所以我想你可能无法直接看到网络所看到的。但是,我们如何才能开始更深入地了解我们的网络?
你可以做的一件事是将网络在我们的图像中发现的特征可视化。我们可以查看过滤器,也可以在应用这些过滤器后查看图像的结果。在第一次卷积中,我们看到我们正在提取边缘,暗模式和亮模式。它们可能非常明显,或者不那么明显。这完全取决于图像中这些特征的强度。
所以你可以在你的网络的任何一层做这件事?
是的。让我们来看看另一个。这个图像的第四次卷积的输出产生了一些更抽象,但有趣的特征。你可以假设这个特殊的通道找到了车轮和汽车的保险杠作为特征。为了验证我们的理论,让我们尝试另一张图片,在图片的左边,后轮是看不到的。如果我们的假设是正确的,那么这个通道的输出应该不会像在图像的左侧那么活跃。这就是我们所看到的。
好了。因此,如果您中的任何人想调试您的网络,这种技术可以为您提供一个网络所看到的可视化表示,并可能帮助您更好地理解正在发生的事情。
是的。所有的代码都在文档中。网站上的例子是通过寻找脸部特征,但概念是一样的。我们再来看一个你可能会觉得有用的工具,叫做深层梦境。深层梦境可以用来制作你可能在网上见过的非常有趣的艺术图像。但这是我们可以用来理解网络的另一个工具。深度梦将输出一幅图像,代表它在整个训练过程中所学到的特征。
理解这一点的一种方法是,与其给网络一个图像并让它连接到一个类,不如反过来。我们给网络上一节课,让它给我们一个图像。这为什么有用呢。
让我们看一下文档。神经网络工具箱有一个关于深度学习的伟大页面。这里的一个概念是深梦,还有一个用AlexNet做深梦的例子。我们可以看到我在这里要求一只母鸡,这是AlexNet训练的类别之一。深梦给了我一个抽象的母鸡的样子。我们可以为我们网络中的任何类别创建深层梦境图像。
因此,如果我们看到一些与类别不符的东西,我们可以假设我们的网络可能没有正确地学习我们的类别。
是的,可能是训练数据的问题。让我给你举个例子。在AlexNet最初的1000个类别中,有一个松鼠类别。我正好有一堆松鼠的照片我们可以在我们的网络上试用它们。我们看到所有的预测都是正确的,除了这个。如果我们观察松鼠的深梦,我们会看到什么?那头发呢,被误认为是什么?有一些鲜艳的颜色与我们尝试的前几张图片相对应。你可以看到尾巴的特征。这些都是这张图片所没有的强烈特征。
因此,我想我们可以在我们的网络中添加更多的测试图像,这些图像包含这些类型的功能或缺少这些功能。
所以现在你有足够的深入学习,更具体地,转移学习。但我们并不完全完成我们的榜样。还记得那个视频我们展示了一段时间的车辆驾驶路上的车吗?我们尝试使用AlexNet进行分类,这就是为什么我们通过所有麻烦创建自己的自定义模型。使用与之前的相同算法来检测图像中的汽车,我现在可以使用我们的模型进行分类。我们可以看到我们的模型认为它们是什么以及该预测的能力。
很好。
这就是转移学习的开始,以及了解你的人际网络并做出改进的许多技巧和窍门。我们希望您已经了解了MATLAB如何使处理大型图像集、访问该领域专家的模型、可视化和调试网络以及加速GPU的深入学习变得容易。
等等,你完全没有涵盖最后一个。
啊,所以你要注意。
是的,我是。
是的,我们没有明确地提到它。但如果你仔细查看训练剪辑,输出消息表明我们是在一个GPU上进行训练,一个NVIDIA®3.0计算能力的GPU,这是使用GPU进行深度学习的最低要求。使用MATLAB的GPU计算的美妙之处在于它都是在幕后处理的。而你,作为用户,不用担心。MATLAB默认使用GPU(如果你有的话),如果你使用GPU或GPU集群或云中的GPU,甚至是CPU,这些功能都不会改变。
你能在训练时使用中央处理器吗?我喜欢你如何从更大,更大,最大,然后缩减到最基本的计算。
是的,从技术上讲,你可以使用CPU。但看看这段时间流逝的视频,它试图在CPU和GPU上训练相同的深度学习算法。
哇。这是非常出众。
是的。所有这些都适用于训练过程的任何部分,无论是训练、测试,还是可视化网络。所以,如果CPU是你唯一的选择,那就试试吧。但我们鼓励您使用GPU进行训练,或者至少确保您在训练模型时有很长时间的咖啡休息时间。
好吧。因此,对于我们的最后演示,我们将谈论一个往往是更具挑战性的问题,这通常是我们的注意。在这里看看这个图像。如果我们向我们的网络呈现,它会认为是什么?在任何情况下,直到现在,我们只示出了将整个图像分类为一个类别的示例。但在此图像中,在多个地点中有多种车辆。我们培训的网络无法告诉我们。
因此,此经典问题称为对象检测,或在场景中定位对象。所以在这个例子中,我们正在看几辆车的背面。我们的目标是检测它们。因此,我们需要创建一个识别我们关心的对象的对象探测器。现在,我们应该如何完成这样做?
那么,这个网络研讨会的主题已经深入了解,所以深入学习怎么样?
太棒了。所以如果我们要训练一个车辆检测器从后面识别车辆,它需要大量的图像来训练。现在,问题是我们的图像数据还没有裁剪到单独的汽车,这意味着乍一看,我们必须从头开始完成裁剪和标记所有图像的乏味任务。这个网络研讨会要开多久?
30分钟或更少。
我觉得我们做不到。除非我们有MATLAB。耶。我很抱歉。MATLAB有内置的应用程序来帮助你完成这个过程。首先,你可以快速浏览所有数据,并围绕场景中的对象绘制边界框。虽然这比手工剪裁好,但你也不想做100或1000次。如果你有一个视频或图像序列,MATLAB可以自动标记场景中的对象。
在视频的第一帧中,我指定对象的位置。现在MATLAB将在整个视频中跟踪它。就这样,我有数百辆新的贴标签的汽车,而不必做100次。现在我们有了所有的图像和我们关心的对象的边界框。同样,对于真实世界和健壮的解决方案,您将需要数千或数百万个对象示例。因此,想象一下,尝试在没有应用程序的情况下手动执行此操作。金宝搏官方网站
回到深度学习。我们要用CNN来训练目标探测器。我们完全可以导入一个预先训练过的CNN,就像我们之前做的那样,完全可以。但为了向你们展示一些新的东西,我们将从头开始创建一个CNN架构。因此,我们不会实时输入所有内容,但在MATLAB中从头创建一个CNN只是一个卷积、激活和拉层的问题——三件你之前谈到过的事情。
这就是我们在这里的顺序。你可以决定使用多少个过滤器。既然我们将所有这些代码提供给您,请自由使用它,并从scratch开始创建您自己的CNN。现在该训练我们的探测器了。有了MATLAB的计算机视觉工具,我们实际上有几个物体探测器,你可以选择。很好的一点是你可以用相同的训练数据对你选择的任何一个。正如您从这段代码中看到的,您可以非常简单地尝试所有这些方法,看看它们是如何工作的。
我们有这些检测器的文档,它将提供在特定场景中使用哪个检测器的建议。所以如果你打算利用物体检测,一定要看看这个。
是的。所以我们训练了我们的探测器。我们在一个样本图像上试一下。你可以在这里看到结果。看起来很好。但为了更令人印象深刻的演示,让我们在视频中尝试一下。就这样,正如你所看到的,沿着高速公路行驶。它对所有的汽车进行分类。这是相当漂亮的。对于高级用户,您可以访问helper函数以更好地了解其性能。
这里是MATLAB如何使它容易做目标检测快速标记您的数据与内置应用程序和训练您的算法与深度学习和计算机视觉的其他工具。最后,请记住,尽管我们在示例中使用了很多车辆,但MATLAB和深度学习并不局限于对车辆进行分类。所以无论是人脸,狗的品种,还是一个巨大的松鼠收集,你都可以用MATLAB轻松地完成。
我想快速呼吁我们支持通过深度学习解决回归问题,这意味着您可以输金宝app出数值,而不是输出类或类别。我们有一些这样的例子,你可以检测道路上的车道边界。对于那些听腻了汽车的人,我们有一个预测面部关键点的方法,可以用来预测一个人的面部表情。
今天我们看到了一些可以用MATLAB和深度学习做的新事情。我们希望你们能够清楚地看到MATLAB是如何使令人生畏的深度学习任务变得更容易的。因此,请务必检查我们在网络研讨会中使用的所有代码,并在您自己的数据上进行试验。
如果你去Add On管理器那里你可以得到我们预先训练过的网络,你可以在同一个地方找到一些其他的资源来建立和运行深度学习,包括一个视频,展示了如何使用MATLAB用网络摄像头快速分类对象。
在我们的网站上查看其他关于深度学习的资源,如果有任何问题,请随时给我们发邮件形象-processing@mathworks.com.
你也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。