开始使用视频分类使用深度学习- MATLAB和Simulink MathWorks西班牙金宝app

开始使用视频分类使用深度学习

视频分类类似于图像分类,该算法利用特征提取器,如卷积神经网络(cnn),从图像序列中提取特征描述符,然后分类类别。视频使用深度学习提供了一种方法来分析分类,分类,和跟踪活动包含在视觉数据源,如视频流。视频分类有很多应用,如人类活动识别、手势识别、异常检测和监视。

视频分类方法包括以下步骤:

准备训练数据
选择一个视频分类器
培训和评估分类器
使用分类器来处理视频数据

你可以训练一个分类器使用一个视频分类器pretrained识别视频数据集大型活动,比如人类行为动力学- 400数据集,这是一个大规模的和高质量的数据集收集。首先为视频分类器提供视频或视频剪辑的标签。然后,使用深度学习视频分类器,包括卷积神经网络的性质相匹配的视频输入,可以预测和分类的视频。理想情况下,您的工作流程应该包括的评价分类器。最后,您可以使用分类器分类活动视频的集合或一个视频摄像头。

计算机视觉工具箱™提供慢速和快速路径(SlowFast) ResNet(2 + 1)维曲线玲珑,和二束Inflated-3D技术培训视频分类的分类器。

三个视频剪辑,视频recogntiion网络,并从网络预测分类。

为视频创建训练数据分类

训练一个分类器网络,你需要一组视频和其相应的场景标签的集合。一个场景标签是标签应用到视频的时间范围。例如,您可以标签的帧“跳”。

您可以使用贴标签机视频或地面实况贴标签机(自动驾驶工具箱)交互式地标签地面实况数据视频,图像序列,或自定义数据源和现场标签。总结所有贴标签机,看到选择一个应用程序标签地面实况数据。

贴标签机视频窗口与个人挥舞相机,贴上“wavingHello”地面真理。

贴标签机应用程序导出标签到垫文件中包含的数据groundTruth对象。为一个例子,演示如何从地面实况提取训练数据对象,明白了提取视频分类训练数据。

增加和预处理数据

数据增强提供了一种方法使用有限的训练数据集。微小的变化,如翻译、裁剪或改变一个图像,提供新的,不同的,独特的图像,您可以用它来训练一个健壮的视频分类器。数据存储是一个便捷的途径,阅读和增强数据的集合。使用fileDatastore函数与一个读函数使用VideoReader读视频文件,创建数据存储的视频和贴上标签数据。为增强和预处理数据的一个例子,看看手势识别使用视频和深度学习。

学习如何增加和预处理数据,看看使用内置的数据存储执行额外的图像处理操作(深度学习工具箱)和数据存储深度学习(深度学习工具箱)。

创建视频分类器

上市视频分类器选择一个对象创建深度学习分类网络使用模型pretrained模型使用动力学- 400数据集(包含400类标签):

的slowFastVideoClassifier在动力学模型是pretrained - 400数据集包含剩余网络ResNet-50模型为骨干架构与慢速和快速通道。此功能需要计算机视觉工具箱SlowFast视频分类模型。
的r2plus1dVideoClassifier在动力学模型是pretrained - 400数据集包含18个时空(ST)残留层。此功能需要计算机视觉工具箱模型R(2 + 1)维视频分类。
的inflated3dVideoClassifier模型包含两个子网:视频网络和光学流网络。这些网络训练与RGB动力学- 400数据集数据和光学流数据,分别。此功能需要计算机视觉工具箱Inflated-3D视频分类模型。

这些深度学习的表提供了一个比较支持分类器:金宝app

模型	数据源	分类器模型尺寸(Pretrained动力学- 400数据集)	GPU的金宝app支持	多个类的支持金宝app	描述
SlowFast	视频数据	124 MB	是的	是的	更快的收敛性比Inflated-3D视频分类器在训练。转移学习在你的数据集可以低于R(2 + 1)维视频分类器因为两条途径的3 D卷积神经网络。三维卷积神经网络比这些更深的Inflated-3D和R(2 + 1)维视频分类器。不需要光学流数据,除了视频数据你必须使用低`MiniBatchSize`价值/ GPU,因为残留层的深度。的值必须是远低于相应的R(2 + 1)维分类器,因为两条途径(大约一半的值可以使用R(2 + 1)维)。选择这个分类器,获得好的分类精度的结果数据集,和更快的收敛在转移学习为代价更大的GPU内存需求。
R(2 + 1)维	视频数据	112 MB	是的	是的	更快的收敛性比Inflated-3D视频分类器在训练。三维卷积神经网络比Inflated-3D CNN是更深层次的。不需要光学数据或RGB数据流。选择这个分类器,获得好的分类精度的结果数据集,和更快的收敛在转移学习为代价更大的GPU内存需求。你必须减少`MiniBatchSize`/ GPU,因为残留层的深度。
Inflated-3D	光流数据视频数据	91 MB	是的	是的	分类器的精度提高结合光流和RGB数据时。慢收敛在训练相比,R(2 + 1)维SlowFast视频分类器。使用光学流数据来获取运动信息,作为分类器的精度提高了光学数据和视频数据流。常用作为基准比较视频分类器。选择这种分类器获得基线结果数据集通过转移学习,和训练,而少用GPU内存。你可以设置`MiniBatchSize`一个值大于R(2 + 1)维或SlowFast。

模型

数据源

分类器模型尺寸(Pretrained动力学- 400数据集)

GPU的金宝app支持

多个类的支持金宝app

描述

SlowFast

视频数据

124 MB

是的

更快的收敛性比Inflated-3D视频分类器在训练。转移学习在你的数据集可以低于R(2 + 1)维视频分类器因为两条途径的3 D卷积神经网络。
三维卷积神经网络比这些更深的Inflated-3D和R(2 + 1)维视频分类器。
不需要光学流数据,除了视频数据
你必须使用低MiniBatchSize价值/ GPU,因为残留层的深度。的值必须是远低于相应的R(2 + 1)维分类器,因为两条途径(大约一半的值可以使用R(2 + 1)维)。
选择这个分类器,获得好的分类精度的结果数据集,和更快的收敛在转移学习为代价更大的GPU内存需求。

R(2 + 1)维

视频数据

112 MB

是的

更快的收敛性比Inflated-3D视频分类器在训练。
三维卷积神经网络比Inflated-3D CNN是更深层次的。
不需要光学数据或RGB数据流。
选择这个分类器,获得好的分类精度的结果数据集,和更快的收敛在转移学习为代价更大的GPU内存需求。
你必须减少MiniBatchSize/ GPU,因为残留层的深度。

Inflated-3D

光流数据
视频数据

91 MB

是的

分类器的精度提高结合光流和RGB数据时。
慢收敛在训练相比,R(2 + 1)维SlowFast视频分类器。
使用光学流数据来获取运动信息,作为分类器的精度提高了光学数据和视频数据流。
常用作为基准比较视频分类器。选择这种分类器获得基线结果数据集通过转移学习,和训练,而少用GPU内存。
你可以设置MiniBatchSize一个值大于R(2 + 1)维或SlowFast。

此表显示了示例代码可以用来创建一个视频分类器使用的每个上市视频分类器:

视频分类器	示例创建代码
SlowFast	inputSize = (112 112 64 3);类= [“wavingHello”,“鼓掌”];科幻小说= slowFastVideoClassifier (“resnet50-3d”、类InputSize = InputSize)
R(2 + 1)维	inputSize = (112 112 64 3);类= [“wavingHello”,“鼓掌”];rd = r2plus1dVideoClassifier (“resnet-3d-18”、类InputSize = InputSize)
的三维	inputSize = (112 112 64 3);类= [“wavingHello”,“鼓掌”];i3d = inflated3dVideoClassifier (“googlenet-video-flow”、类InputSize = InputSize)

视频分类器

示例创建代码

SlowFast

inputSize = (112 112 64 3);类= [“wavingHello”,“鼓掌”];科幻小说= slowFastVideoClassifier (“resnet50-3d”、类InputSize = InputSize)

R(2 + 1)维

inputSize = (112 112 64 3);类= [“wavingHello”,“鼓掌”];rd = r2plus1dVideoClassifier (“resnet-3d-18”、类InputSize = InputSize)

的三维

inputSize = (112 112 64 3);类= [“wavingHello”,“鼓掌”];i3d = inflated3dVideoClassifier (“googlenet-video-flow”、类InputSize = InputSize)

火车视频分类和评估结果

学习如何培训和评估上市视频分类器的结果,看看这些例子:

手势识别使用视频和深度学习——培训和评估SlowFast视频分类器
活动识别使用R(2 + 1)维视频分类——培训和评估一个R(2 + 1)维视频分类器
活动从视频和光学流数据识别使用深度学习——培训和评估二束Inflated-3D视频分类器