主要内容

物体检测使用更快的R-CNN深度学习

此示例显示如何训练更快的R-CNN(带卷积神经网络的区域)对象检测器。

深度学习是一种强大的机器学习技术,可以用来训练健壮的目标检测器。有几种用于目标检测的深度学习技术,包括Faster R-CNN和你只看一次(YOLO) v2。这个例子使用。训练Faster R-CNN车辆检测器TRATHFASTERRCNNOOBJECTDETECTOR.功能。有关更多信息,请参阅对象检测

下载Pretrained探测器

下载佩带的探测器,以避免等待培训完成。如果你想训练探测器,请设置用圆形变量为true。

dotraining = false;如果~ doTraining & & ~存在(“fasterRCNNResNet50EndToEndVehicleExample.mat”'文件') disp ('下载掠夺探测器(118 MB)......');pretrowsurl =.“//www.tatmou.com/金宝appsupportfiles/vision/data/fasterRCNNResNet50EndToEndVehicleExample.mat”;WebSave(“fasterRCNNResNet50EndToEndVehicleExample.mat”,pretrowsurl);结尾

加载数据集

这个例子使用了一个包含295张图像的小标记数据集。许多图像来自加州理工学院汽车1999和2001年的数据集,可在加州理工学院计算视觉网站,由Pietro Perona创作并经许可使用。每个图像包含一个或两个标记过的车辆实例。一个小的数据集对于探索Faster R-CNN训练过程是有用的,但在实践中,需要更多的标记图像来训练一个鲁棒检测器。解压缩车辆图像并加载车辆地面真实数据。

解压缩vevicledatasetimages.zip.data = load('车辆有绳索地面纠址.MAT');vevicledataset = data.vehicledataset;

车辆数据存储在双列表中,第一列包含图像文件路径,第二列包含车辆边界框。

将数据集拆分为培训,验证和测试集。选择60%的培训数据,验证10%,以及用于测试培训的探测器的其余部分。

RNG(0)Shuffled indices = Randperm(高度(车辆达到));IDX =楼层(0.6 *高度(车辆型履带));trainingIdx = 1:IDX;trainingdatatbl =车辆驾驶仪(shuffleddindes(trainingidx),:);validationIdx = IDX + 1:IDX + 1 +楼层(0.1 *长度(Shuffledindices));ValidationDataTBL =车辆(Shuffledindices(validationIdx),:);testIdx = ValidationIDX(END)+1:长度(Shuffleddindes);testdatatbl =车辆levledataset(shuffleddindes(testidx),:);

使用imageDatastoreboxlabeldatastore.创建用于在培训和评估期间加载图像和标签数据的数据存储。

imdsTrain = imageDatastore (trainingDataTbl {:,'imagefilename'});Bldstrain = boxlabeldataStore(TriceionDatatbl(:,'车辆'));imdsvalidation = imageageataStore(ValidationDatatbl {:,'imagefilename'});bldsvalidation = boxlabeldataStore(ValidationDatatbl(:,'车辆'));imdsTest = imageDatastore (testDataTbl {:,'imagefilename'});Bldstest = boxlabeldataStore(testdatatbl(:,'车辆'));

组合图像和框标签数据存储。

trainingdata =联合(Imdstrain,Bldstrain);ValidationData = Combine(IMDSValidation,BLDSvalidation);testdata =组合(IMDSTEST,BLDSTEST);

显示其中一个培训图像和框标签。

数据=读取(TrainingData);i =数据{1};bbox = data {2};AnnotatedImage = instrshape(我,“矩形”, bbox);annotatedImage = imresize (annotatedImage 2);图imshow (annotatedImage)

创建更快的R-CNN检测网络

更快的R-CNN对象检测网络由特征提取网络组成,后跟两个子网。特征提取网络通常是预磨削的CNN,例如Reset-50或Incepion V3。特征提取网络之后的第一个子网是培训的区域提案网络(RPN),以在可能存在对象中生成对象提案的区域。第二个子网络接​​受培训以预测每个对象提案的实际类别。

特征提取网络通常是一个预先训练的CNN(详细信息请参见预训练的深度神经网络(深度学习工具箱)).本例使用ResNet-50进行特征提取。您还可以使用其他预训练网络,如MobileNet v2或ResNet-18,根据您的应用程序需求。

使用fasterRCNNLayers要自动创建更快的R-CNN网络,给出备用特征提取网络。fasterRCNNLayers需要你指定几个参数化Faster R-CNN网络的输入:

  • 网络输入大小

  • 锚箱

  • 特征提取的网络

首先,指定网络输入大小。选择网络输入大小时,请考虑运行网络本身的最小大小,培训图像的大小以及通过在所选大小处理数据产生的计算成本。可行时,选择接近训练图像大小的网络输入大小,大于网络所需的输入大小。为了降低运行示例的计算成本,请指定[224 224 3]的网络输入大小,这是运行网络所需的最小大小。

inputSize = [224 224 3];

请注意,在此示例中使用的训练图像大于224-by-224,大小不同,因此您必须在培训之前在预处理步骤中调整图像中的图像大小。

下一步,使用extimateanchorboxes.基于培训数据中对象的大小来估算锚框。为了考虑在培训之前调整图像的大小,调整培训数据的大小进行估算锚盒。使用转换为了预处理训练数据,然后定义锚框的数量并估计锚框。

preprocessedtrainingdata =转换(TrainingData,@(数据)预处理数据(数据,inputSize));Numanchors = 3;anchorboxes = extimateanchorboxes(Preprocessedtrainingdata,Numanchors)
锚盒=3×229 17 46 39 136 116

有关选择锚盒的更多信息,请参见从训练数据估算锚盒(计算机Vision Toolbox™)和用于物体检测的锚盒

现在,使用resnet50.加载预训练的ResNet-50模型

featureextractionnetwork = resnet50;

选择'activation_40_relu'作为特征提取层。此特征提取层输出缩小为16倍的特征映射。此下采样量在空间分辨率和提取特征的强度之间是一个良好的权衡,因为在网络中进一步提取的特征在网络中提取更强烈的图像特征空间分辨率的成本。选择最佳特征提取层需要经验分析。您可以使用analyzeNetwork查找网络中其他潜在特征提取层的名称。

featureLayer ='activation_40_relu';

定义要检测的类的数量。

numClasses =宽度(vehicleDataset) 1;

创建更快的R-CNN对象检测网络。

lgraph = fasterRCNNLayers (inputSize numClasses、anchorBoxes featureExtractionNetwork, featureLayer);

您可以使用可视化网络analyzeNetwork或深度学习工具箱™的深度网络设计师。

如果在较快的R-CNN网络架构上需要更多控制,请使用深网络设计器手动设计更快的R-CNN检测网络。有关更多信息,请参阅R-CNN,FAST R-CNN和更快的R-CNN入门

数据增强

数据增强技术通过在训练过程中对原始数据进行随机变换来提高网络的精度。通过使用数据增强,您可以添加更多的变化到训练数据,而不必实际增加标记训练样本的数量。

使用转换通过水平翻转图像和相关框标签来增加培训数据。请注意,数据增强不适用于测试和验证数据。理想情况下,测试和验证数据代表原始数据,并未被修改以进行无偏的评估。

AugmentedTrainingData =变换(TrainingData,@ AugmentData);

多次读取相同的图像并显示增强训练数据。

AugmentedData = Cell(4,1​​);为了k = 1:4 data = read(augmentedTrainingData);augmentedData {k} = insertShape(数据{1},“矩形”、数据{2});重置(augmentedTrainingData);结尾图蒙太奇(augmentedData,“BorderSize”,10)

预处理培训数据

预处理增强培训数据,以及为培训做准备的验证数据。

trainingdata = transform(augmentedtrainingdata,@(data)preprocessdata(数据,inputsize));ValidationData = Transform(ValidationData,@(数据)预处理数据(数据,inputSize));

读取预处理数据。

数据=读取(TrainingData);

显示图像和框边界框。

i =数据{1};bbox = data {2};AnnotatedImage = instrshape(我,“矩形”, bbox);annotatedImage = imresize (annotatedImage 2);图imshow (annotatedImage)

火车更快R-CNN

使用trainingOptions指定网络培训选项。放“ValidationData”到预处理的验证数据。放“CheckpointPath”到临时位置。这使得能够在培训过程中节省部分训练的探测器。如果培训被中断,例如通过停电或系统故障,您可以从已保存的检查点恢复培训。

选择= trainingOptions (“个”......'maxepochs'10,......'minibatchsize',2,......'italllearnrate',1e-3,......“CheckpointPath”,Tempdir,......“ValidationData”,validationdata);

使用TRATHFASTERRCNNOOBJECTDETECTOR.训练更快的R-CNN对象探测器如果用圆形是真的。否则,加载预训练的网络。

如果用圆形%培训更快的R-CNN探测器。%*调整负极源性和积极的索引,以确保培训样本的百分比与地面真相紧密重叠。[detector, info] = trainFasterRCNNObjectDetector(trainingData,lgraph,options,......“NegativeOverlapRange”,[0 0.3],......'积极透过的',[0.6 1]);别的为示例的%负载净化探测器。pretrained =负载(“fasterRCNNResNet50EndToEndVehicleExample.mat”);探测器= pretrination.detector;结尾

此示例是在具有12gb内存的Nvidia(TM) Titan X GPU上验证的。训练网络大约花了20分钟。训练时间取决于你使用的硬件。

作为快速检查,在一个测试图像上运行探测器。确保将图像调整为与培训图像相同的大小。

i = imread(testdatatbl.imagefilename {3});i = imresize(i,输入(1:2));[bboxes,scores] =检测(探测器,i);

显示结果。

i = InsertObjectAnnotation(I,“矩形”bboxes,分数);图imshow(我)

使用测试集评估检测器

在大量图像上评估训练后的目标检测器的性能。计算机视觉工具箱™提供对象检测器评估功能,以衡量一般指标,如平均精度(evaluateDetectionPrecision)和日志平均小姐率(evaluateDetectionMissRate).在此示例中,使用平均精度度量来评估性能。平均精度提供单个数字,该编号包含检测器对探测器(精度)和检测器找到所有相关对象(召回)的能力的能力。

将与训练数据的测试数据应用相同的预处理变换。

testdata = transform(testdata,@(data)preprocessdata(数据,inputsize));

在所有测试图像上运行探测器。

detectionResults =检测(testData探测器,“MinibatchSize”4);

使用平均精度度量评估对象检测器。

[ap, recall, precision] = evaluateDetectionPrecision(detectionResults,testData);

精密/召回(PR)曲线突出显示检测器的次数变化的精确度。理想的精度在所有召回水平上都是1。使用更多数据可以帮助提高平均精度,但可能需要更多的培训时间。绘制PR曲线。

图绘图(召回,精确)xlabel('记起')ylabel('精确'网格)标题(Sprintf('平均精度= %.2f',ap))

金宝app支持功能

函数数据= upmentData(数据)%随机翻转图像和边界框水平。tform = ronstaffine2d('Xreflection',真的);sz = size(数据{1});rut = AffineOutputView(SZ,TForm);数据{1} = imwarp(数据{1},tform,“OutputView”,溃败);如果需要,%Sanitize Box数据。数据{2} = allersanitizedboxes(数据{2},sz);%翘曲盒。数据{2} = bboxwarp(数据{2},tform,rut);结尾函数Data = PreprocessData(数据,TargetSize)%调整图像大小和边界框以瞄准。sz = size(数据{1},[1 2]);scale = targetsize(1:2)./ sz;数据{1} = IMResize(数据{1},targetsize(1:2));如果需要,%Sanitize Box数据。数据{2} = allersanitizedboxes(数据{2},sz);%调整大小框。数据{2} = bboxresize(数据{2},比例);结尾

参考

[1]任,S.,K。他,R.Gershick和J. Sun.“更快的R-CNN:通过区域提案网络实时对象检测。”图案分析和机器智能的IEEE交易.第39卷,第6期,2017年6月,第1137-1149页。

[2] Girshick,R.,J. Donahue,T. Darrell和J. Malik。“丰富的特征层次结构,用于准确对象检测和语义细分。”2014 IEEE计算机视觉与模式识别会议论文集.哥伦布,哦,2014年6月,第580-587页。

[3] Girshick, R。“快速R-CNN。”2015 IEEE计算机视觉国际会议论文集.Santiago,智利,2015年12月,第1440-1448页。

[4] Zitnick,C.L和P. Dollar。“边缘盒子:从边缘找到对象提案。”欧洲计算机视觉会议.苏黎世,瑞士,2014年9月,第391-405页。

[5] Uijlings,J.R. R.,K .. A.Van de Sande,T.Gevers和A. W. M.熔手。“选择性搜索对象识别。”国际计算机视觉杂志.卷。104,2013年9月2日,第154-171页。

也可以看看

||||||||||(深度学习工具箱)|(深度学习工具箱)

相关话题