基于深度学习的语义分割

这个示例使用:

打开直播脚本

此示例显示如何使用深度学习培训语义分段网络。

语义分割网络对图像中的每个像素进行分类，导致由类分段的图像。语义分割的应用包括用于自主驾驶和癌细胞分段的道路分割，用于医学诊断。要了解更多信息，请参阅使用深度学习开始使用语义分割(计算机视觉工具箱)．

为了说明训练程序，该示例列表DEEPLAB V3 + [1]，设计用于语义图像分割的一种类型的卷积神经网络（CNN）。用于语义分割的其他类型的网络包括完全卷积网络（FCN），SEGNET和U-NET。此处显示的培训程序也可以应用于这些网络。

本示例使用CamVid数据集[2]来自剑桥大学接受培训。这个数据集是一个图像集合，包含驾驶时获得的街道视图。该数据集提供了32个语义类的像素级标签，包括汽车、行人和道路。

设置

这个例子创建了Deeplab v3+网络，权值由预先训练的Resnet-18网络初始化。ResNet-18是一个高效的网络，非常适合处理资源有限的应用程序。根据应用需求，还可以使用其他预先训练过的网络，如MobileNet v2或ResNet-50。有关详细信息，请参见普里德深度神经网络．

安装一个预先训练过的Resnet-18resnet18．安装完成后，运行以下代码以验证安装是否正确。

resnet18 ();

此外，请下载预先训练过的DeepLab v3+版本。预先训练的模型允许您运行整个示例，而不必等待训练完成。

pretrowsurl =“//www.tatmou.com/金宝appsupportfiles/vision/data/deeplabv3plusResnet18CamVid.mat”；pretrainedFolder = fullfile (tempdir,'pretrownetwork'）;pretrainedNetwork = fullfile (pretrainedFolder,'deeplabv3plusresnet18camvid.mat'）;如果〜存在（pretratingnetwork，'文件'mkdir (pretrainedFolder);disp ('下载掠夺网络（58 MB）......'）;websave (pretrainedNetwork pretrainedURL);结束

强烈推荐使用支持cuda的NVIDIA™GPU来运行此示例。使用GPU需要并行计算工具箱™。有关支持的计算能力的信息，请参见金宝appGPU支金宝app持情况(并行计算工具箱)．

下载CamVid数据集

从以下url下载CamVid数据集。

imageURL =“http://web4.cs.ucl.ac.uk/staff/g.brostow/MotionSegRecData/files/701_StillsRaw_full.zip”；LabelURL =.“http://web4.cs.ucl.ac.uk/staff/g.brostow/MotionSegRecData/data/LabeledApproved_full.zip”；outputfolder = fullfile（tempdir，“CamVid”）;labelsZip = fullfile (outputFolder,'labels.zip'）;imagesZip = fullfile (outputFolder,“images.zip”）;如果〜存在（Labelszip，'文件') | | ~存在(imagesZip'文件'mkdir (outputFolder) disp ('下载16 MB Camvid数据集标签......'）;websave (labelsZip labelURL);解压缩(labelsZip fullfile (outputFolder“标签”));disp (“下载557 MB CamVid数据集图像……”）;websave (imagesZip imageURL);解压缩(imagesZip fullfile (outputFolder'图片'));结束

注意:资料下载时间视乎阁下的互联网连接情况而定。上面使用的命令阻塞MATLAB，直到下载完成。或者，您可以使用web浏览器先将数据集下载到本地磁盘。要使用从网上下载的文件，请更改outputFolder变量设置为下载文件的位置。

加载Camvid映像

使用imageageAtastore.加载CamVid图像。的imageageAtastore.使您能够有效地在磁盘上加载大型映像集合。

imgDir = fullfile (outputFolder,'图片'，'701_stillsraw_full'）;IMDS = IMAGEDATASTORE（IMGDIR）;

显示其中一个图像。

I = readimage (imd, 559);I = histeq(我);imshow(我)

加载CamVid像素标记的图像

使用PixellabeldAtastore.(计算机视觉工具箱)加载Camvid像素标签图像数据。一种PixellabeldAtastore.将像素标签数据和标签ID封装到类名映射中。

我们使培训更容易，我们将CamVid中的32个原始类分组为11个类。指定这些类。

类= [“天空”“建筑”“极”“路”“路面”“树”“SignSymbol”“篱笆”“车”“行人”“自行车”];

为了将32个类减少到11个，将来自原始数据集的多个类分组在一起。例如，"Car"是"Car"， "SUVPickupTruck"， "Truck_Bus"， "Train"和"OtherMoving"的组合。使用支持函数返回分组标签id金宝appcamvidPixelLabelIDs，在本例的最后列出。

labelIDs = camvidPixelLabelIDs ();

使用类和标签id来创建pixelLabelDatastore。

labelDir = fullfile (outputFolder,“标签”）;pxds = pixelLabelDatastore (labelDir、类labelIDs);

通过将其覆盖在图像的顶部覆盖并显示一个像素标记的图像之一。

C = ReadImage（PXDS，559）;cmap = camvidcolormap;我= labeloverlay (C“ColorMap”，cmap）;imshow（b）pixellabelolorbar（cmap，claseses）;

没有颜色覆盖的区域没有像素标签，也不会在训练期间使用。

分析数据集统计信息

要查看CamVid数据集中类标签的分布，请使用counteanceLabel.(计算机视觉工具箱)．这个函数根据类标签计算像素的数量。

台= countEachLabel (pxds)

台=11×3表名称pixelcount imagepixelcount ______________________________________17.6801C + 08 4.8315CE + 08 4.8315E + 08 4.8315E + 08 4.8315E + 08 4.8315E + 08 4.7987E + 06 4.8315E + 06 4.8315E + 06 4.8315E + 06 4.8315E + 06 4.8315E + 06 4.8315E + 06 4.8315E + 06 4.8315E + 06 4.8315E + 06 4.8315E + 08 {'道路'}1.4054E + 08 4.8453E + 08 {'payment'} 3.3614E + 07 4.7209E + 08 {'tree'} 5.4259e + 07 4.479E + 07 4.479E + 08 {'signsymbol'} 5.2242E + 06 4.6863E + 08 {'围栏'} 6.9211E + 06 2.516E + 08 {'Car'} 2.4437E + 07 4.8315E + 07 4.8315E + 08 {'PEDSTRIAN'} 3.4029E + 06 4.4444E + 08 4.4444E + 08 {'BICSCLIST'} 2.5912E + 06 2.6196E + 08

通过类可视化像素计数。

频率= tbl.pixelcount / sum（tbl.pixelcount）;BAR（1：NUMER（类），频率）XTICKS（1：NUMER（类））XTickLabels（TBL.NAME）XTickangle（45）Ylabel（'频率'）

理想情况下，所有的类都有相同数量的观察。然而，CamVid中的类不平衡，这是汽车街景数据集中普遍存在的问题。这类场景比行人和骑自行车的人有更多的天空、建筑和道路像素，因为在图像中天空、建筑和道路覆盖了更多的区域。如果处理不当，这种不平衡会对学习过程造成不利影响，因为学习偏向于主导阶级。在本例的后面，您将使用类权重来处理这个问题。

Camvid数据集中的图像大小为720×960。选择图像尺寸，使得在具有12 GB内存的NVIDIA™Titan X上的NVIDIA™TITAN X上的训练期间，可以适应内存。如果您的GPU没有足够的内存或减少训练批量大小，您可能需要调整图像大小以更小的尺寸。

准备培训，验证和测试集

Deeplab v3+使用数据集中60%的图像进行训练。其余的图像分别以20%和20%平均分割，用于验证和测试。下面的代码将图像和像素标签数据随机分割为训练、验证和测试集。

[IMDStrain，IMDSVAL，IMDST，PXDSTRAIN，PXDSVAL，PXDSTEST] = PartitionCamViddata（IMDS，PXD）;

60/20/20的分割结果为如下数量的训练、验证和测试图像:

numTrainingImages =元素个数(imdsTrain.Files)

numTrainingImages = 421

numvalimages = numel（imdsval.files）

numValImages = 140

numtestingimages = numel（imdstest.files）

numTestingImages = 140

创建网络

使用deeplabv3plusLayers函数创建基于ResNet-18的DeepLab v3+网络。为应用程序选择最佳网络需要经验分析，这是另一种超参数调优。例如，您可以尝试使用不同的基础网络，如ResNet-50或MobileNet v2，或者您可以尝试其他语义分割网络架构，如SegNet、完全卷积网络(FCN)或U-Net。

%指定网络镜像大小。这通常与训练图像的大小相同。imageSize = [720 960 3];%指定类的数量。numClasses =元素个数(类);%创建DeepLab v3+。lgraph = deeplabv3plusLayers(imageSize, numClasses，“resnet18”）;

使用类权重来平衡类

如前所述，Camvid中的类不平衡。为了改进培训，您可以使用类加权来平衡类。使用前面计算的像素标签计数counteanceLabel.(计算机视觉工具箱)并计算频率类权重的中位数。

imagefreq = tbl.pixelcount ./ tbl.imagepixelcount;Classweights =中位数（imagefreq）./ imagefreq

classWeights =11×10.3182 0.2082 5.0924 0.1744 0.7103 0.4175 0.4175 4.5371 1.8386 1.0000 6.6059⋮

使用a指定类重量pixelClassificationLayer(计算机视觉工具箱)．

pxlayer = pixelclassificationlayer（“名字”，“标签”，“类”，tbl.name，“ClassWeights”, classWeights);lgraph = replaceLayer (lgraph,“分类”, pxLayer);

选择培训选项

用于训练的优化算法为随动量随机梯度下降算法(SGDM)。使用培训选项来指定用于SGDM的超参数。

定义验证数据。dsVal =结合(imdsVal pxdsVal);定义培训选项。选项=培训选项（“个”，．..“LearnRateSchedule”，'分段'，．..'学习ropperiod'10，．..“LearnRateDropFactor”, 0.3,．..“动量”, 0.9,．..“InitialLearnRate”，1e-3，．..“L2Regularization”, 0.005,．..'vightationdata'dsVal,．..'maxepochs'，30，．..“MiniBatchSize”8．..“洗牌”，'每个时代'，．..'checkpoinspath'tempdir,．..'verbosefrequency'，2，．..“阴谋”，'培训 - 进步'，．..“ValidationPatience”4);

学习率采用分段计划。学习率每10个纪元降低0.3倍。这使得网络能够以较高的初始学习率快速学习，同时一旦学习率下降，就能够找到接近局部最优的解。

通过设置该emoch，对网络进行测试针对验证数据进行测试'vightationdata'参数。的“ValidationPatience”设置为4，以便在验证精度收敛时尽早停止训练。这可以防止网络对训练数据集进行过拟合。

8个小批量用于减少训练时的内存使用。你可以根据你系统上的GPU内存数量增加或减少这个值。

此外,'checkpoinspath'被设置为临时位置。此名称值对使得在每个培训时代的末尾都可以保存网络检查点。如果由于系统故障或停电而中断培训，则可以从已保存的检查点恢复培训。确保由此指定的位置'checkpoinspath'有足够的空间存储网络检查点。例如，节省100个Deeplab v3+检查点需要大约6gb的磁盘空间，因为每个检查点都是61 MB。

数据增加

数据增强用于通过在培训期间随机转换原始数据来提高网络精度。通过使用数据增强，您可以在不增加标记培训样本的数量的情况下为培训数据添加更多品种。将相同的随机转换应用于图像和像素标签数据使用数据存储结合和转变．首先,结合imdsTrain和pxdstrain．

dstrain =组合（Imdstrain，pxdstrain）;

接下来，使用数据存储转变应用在支持功能中定义的所需数据增强金宝appAugmentimageandlabel.．这里，随机左/右反射和随机X/Y平移+/- 10像素用于数据增强。

Xtrans = [-10 10];ytrans = [-10 10];dstrain =变换（dstrain，@（data）augmentimageandlabel（数据，xtrans，ytrans））;

注意，数据扩充并不适用于测试和验证数据。理想情况下，测试和验证数据应该能够代表原始数据，并且不作任何修改，以便进行公正的评估。

开始训练

开始培训使用trainNetwork如果是doTraining国旗是真的。否则，加载备用网络。

注意：培训在NVIDIA™Titan X上验证了12 GB的GPU内存。如果您的GPU具有较少的内存，则在培训期间可能会耗尽内存。如果发生这种情况，请尝试设置“MiniBatchSize”1在培训选项，或减少网络输入并调整训练数据的大小。训练这个网络大约需要5个小时。根据你的GPU硬件，可能需要更长的时间。

dotraining = false;如果doTraining [net, info] = trainNetwork(dsTrain,lgraph,options);其他的data =负载(pretrainedNetwork);网= data.net;结束

在一个图像上测试网络

作为一个快速的完整性检查，在一个测试图像上运行训练过的网络。

I = readimage (imdsTest 35);C = semanticseg(I, net);

显示结果。

我= labeloverlay (C“Colormap”提出,“透明”, 0.4);imshow (B) pixelLabelColorbar(提出、类);

比较C储存的预期地面真相PXDSTEST.．绿色和洋红色区域突出了分割结果与预期的基础事实不同的区域。

预计= ReadImage（PXDStest，35）;实际= uint8（c）;预计= UINT8（预计结果）;imshowpair（实际，预期）

从视觉上看，道路、天空和建筑等类的语义分割结果重叠得很好。然而，像行人和汽车这样较小的物体就不那么准确了。每个类的重叠量可以使用交叉联合(IoU)度量，也称为Jaccard指数。使用jaccard(图像处理工具箱)功能来衡量欠条。

iou = jaccard（c，ceneceseResult）;表（课程，iou）

ans =11×2表class iou ____________ _______“Sky”0.91837“Building”0.84479“Pole”0.31203“Road”0.93698“Pavement”0.82838“Tree”0.89636“SignSymbol”0.57644“Fence”0.71046“Car”0.66688“Pedestrian”0.48417“Bicyclist”0.68431

iou ericric确认了视觉结果。道路，天空和建筑课程具有高iou的分数，而行人和汽车等课程得分低。其他常见的分割指标包括骰子(图像处理工具箱)和bfscore(图像处理工具箱)轮廓匹配分数。

评估培训的网络

测量多个测试图像的准确性，运行semanticseg(计算机视觉工具箱)在整个测试集中。一个小批大小为4用于减少内存使用，而分割图像。你可以根据你系统上的GPU内存数量增加或减少这个值。

pxdsResults = semanticseg (imdsTest净,．..“MiniBatchSize”，4，．..“WriteLocation”，Tempdir，．..“详细”，错误的）;

semanticseg将测试集的结果作为PixellabeldAtastore.目的。每个测试图像的实际像素标记数据imdsTest写入磁盘的位置由“WriteLocation”参数。使用evaluateSemanticSegmentation(计算机视觉工具箱)度量测试集结果上的语义分割度量。

指标= evaluateSemanticSegmentation (pxdsResults pxdsTest,“详细”，错误的）;

evaluateSemanticSegmentation为单个类别返回整个数据集的各种度量，以及每个测试图像。查看数据集级别度量，检查指标。DataSetMetrics．

指标。DataSetMetrics

ans =表1×5GlobalAccuracy意味着意思意味着意思是敏感_____________________________________ 0.85392 0.6302 0.85392 0.65051

数据集指标提供了网络性能的高级概述。要查看每个类对整体性能的影响，请检查使用的每个类度量指标.Classmetrics.．

指标.Classmetrics.

ans =11×3表精度借条MeanBFScore ________ _______ ___________天空0.93112 0.90209 0.8952大厦0.78453 0.76098 0.58511极0.71586 0.21477 0.51439路0.93024 0.91465 0.76696路面0.88466 0.70571 0.70919树0.87377 0.76323 0.70875 SignSymbol 0.79358 0.39309 0.48302栅栏0.81507 0.46484 0.48566汽车0.90956 0.76799 0.69233步行0.87629 0.4366 0.60792自行车运动员0.87844 0.60829 0.55089

虽然整体数据集性能相当高，但类度量标准显示出代表性的类（如）行人，骑自行车，和车没有分段以及诸如此类的课程路，天空，和建筑．包含更多符号类别样本的其他数据可能有助于提高结果。

金宝app支持功能

功能labelIDs = camvidPixelLabelIDs ()％返回与每个类对应的标签ID。％CamVid数据集有32个类。将他们分成11个班%原赛格网培训方法[1]。％％11课程是：％“天空”“建筑”，“杆”，“道路”，“路面”，“树”，“SignSymbol”，%“栅栏”，“汽车”，“行人”和“自行车”。％% CamVid像素标签id作为RGB颜色值提供。集团成％11类并将其作为M×3矩阵的单元格数组返回。的%原始CamVid类名在每个RGB值旁边列出。请注意其他/空白类别在下面排除。labelids = {．..%的“天空”[128 128 128;．..%的“天空”］％ “建造”[000 128 064;．..％ “桥”128 000 000;．..％ “建造”064 192 000;．..％ “墙”064 000 064;．..%的“隧道”192 000 128;．..%的“拱门”］％“杆子”[192 192 128;．..%”Column_Pole”000 000 064;．..％ “交通拥挤”］%的道路[128 064 128;．..%的“路”128 000 192;．..％“lanemkgsdriv”192 000 064;．..％“lanemkgsnondriv”］％“路面”[000 000 192;．..%“人行道”064 192 128;．..％“停车盆”128 128 192;．..%”RoadShoulder”］%的“树”[128 128 000;．..%的“树”192 192 000;．..%”VegetationMisc”］%”SignSymbol”[192 128 128;．..%”SignSymbol”128 128 064;．..%”Misc_Text”000 064 064;．..%”TrafficLight”］％ “栅栏”[064 064 128;．..％ “栅栏”］％ “车”[064 000 128;．..％ “车”064 128 192;．..%”SUVPickupTruck”192 128 192;．..%”Truck_Bus”192 064 128;．..%“训练”128 064 064;．..%”OtherMoving”］%“行人”[064 064 000;．..%“行人”192 128 064;．..%的“孩子”064 000 192;．..％“cartluggagepram”064 128 064;．..％ “动物”］%“自行车”[000 128 192;．..%“自行车”192 000 192;．..％“motorcyclescooter”];结束

功能PixellabelColorbar（CMAP，ClassNames）%添加一个颜色条到当前轴。颜色栏被格式化%以显示带有颜色的类名。Colormap（GCA，CMAP）%添加颜色栏到当前的数字。c = colorbar ('同伴'，GCA）;％使用刻度线的类名称。C.Ticklabels = ClassNames;numclasses = size（cmap，1）;%中心打勾标签。c.Ticks = 1 / (numClasses * 2): 1 / numClasses: 1;%删除勾号。c.TickLength = 0;结束

功能提出= camvidColorMap ()定义CamVid数据集使用的颜色映射。Cmap = [128 128 128 .%的天空128 0 0％ 建造192 192 192％极点128 64 128%的道路60 40 222%的人行道上128 128 0％ 树192 128 128.% SignSymbol64 64 128％ 栅栏64 0 128.%的车64 64 0%行人0 128 192%骑自行车];% Normalize between[0 1]。Cmap = Cmap ./ 255;结束

功能[imdsTrain, imdsVal, imdsTest, pxdsTrain, pxdsVal, pxdsTest] = partioncamviddata (imds,pxds)%对CamVid数据进行分区，随机选取60%的数据进行训练。的% rest用于测试。%设置初始随机状态，例如重现性。rng (0);numFiles =元素个数(imds.Files);shuffledIndices = randperm (numFiles);%使用60%的图像进行训练。numTrain = round(0.60 * numFiles);trainingIdx = shuffledIndices (1: numTrain);%使用20%的图像进行验证numVal = round(0.20 * numFiles);valIdx = shuffledIndices (numTrain + 1: numTrain + numVal);％使用其余的测试。testidx = Shuffleddindices（Numtrain + Numval + 1：END）;%创建用于培训和测试的图像数据存储。trainingImages = imds.Files (trainingIdx);valImages = imds.Files (valIdx);testImages = imds.Files (testIdx);imdsTrain = imageDatastore (trainingImages);imdsVal = imageDatastore (valImages);imdsTest = imageDatastore (testImages);％提取类和标签ID信息。类= pxds.ClassNames;labelIDs = camvidPixelLabelIDs ();%创建用于训练和测试的像素标签数据存储。trainingLabels = pxds.Files (trainingIdx);valLabels = pxds.Files (valIdx);testLabels = pxds.Files (testIdx);pxdsTrain = pixelLabelDatastore(trainingLabels, classes, labelid);pxdsVal = pixelLabelDatastore(valLabels, classes, labelid);pxdsTest = pixelLabelDatastore(testLabels, classes, labelid);结束

功能data = augmentImageAndLabel(data, xTrans, yTrans)％增强图像和像素标签图像使用随机反射和％ 翻译。为i = 1:size(data,1) tform = randomAffine2d(．..'Xreflection'，真的，．..'Xtranslation'xTrans,．..“YTranslation”, yTrans);%将视图置于输出空间中图像的中心%允许平移将输出图像移出视图。rout = affineOutputView(size(data{i,1}))， tform，“BoundsStyle”，“centerOutput”）;使用相同的变换扭曲图像和像素标签。Data {i,1} = imwarp(Data {i,1}， tform，)“OutputView”，溃败）;数据{i，2} = imwarp（数据{i，2}，tform，“OutputView”，溃败）;结束结束

参考

[1] Chen，Liang-Chieh等。“编码器 - 解码器具有可见的可分离卷积，用于语义图像分割。”ECCV（2018）。

[2]荆棘，G.J.，J.Faueueur和R. Cipolla。“视频中的语义对象类：高清地面真相数据库。”模式识别的字母．2009年第30卷第2期88-97页。

另请参阅