利用模型函数训练网络

打开实时脚本

这个例子展示了如何通过使用函数而不是层图或函数来创建和训练深度学习网络dlnetwork．使用函数的优点是可以灵活地描述各种各样的网络。缺点是必须完成更多的步骤并仔细准备数据。这个例子使用了手写数字的图像，它有两个目标，一是对数字进行分类，二是确定每个数字与垂直方向的角度。

负荷训练数据

的digitTrain4DArrayData函数加载图像、它们的数字标签以及它们从垂直方向旋转的角度。创建arrayDatastore对象的图像、标签和角度，然后使用结合函数创建一个包含所有训练数据的单个数据存储。提取类名和非离散响应的数量。

[XTrain,YTrain,anglesTrain] = digitTrain4DArrayData;dsXTrain = arrayDatastore(XTrain，“IterationDimension”4);dsYTrain = arrayDatastore(YTrain);dsAnglesTrain = arrayDatastore(anglesTrain);dsTrain = combine(dsXTrain,dsYTrain,dsAnglesTrain);classNames =类别(YTrain);numClasses = numel(classNames);numResponses = size(anglesTrain,2);numObservations = numel(YTrain);

查看训练数据中的一些图像。

idx = randperm(numObservations,64);I = imtile(XTrain(:，:，:，idx));图imshow(我)

定义深度学习模型

定义以下预测标签和旋转角度的网络。

带有16个5 × 5滤波器的卷积-batchnorm- relu块。
两个卷积批模块的分支，每个块有32个3 × 3滤波器，中间有一个ReLU操作
一个带有32个1乘1卷积的卷积批量模块的跳过连接。
使用加法和ReLU操作合并两个分支
对于回归输出，具有大小为1(响应的数量)的完全连接操作的分支。
对于分类输出，一个具有大小为10(类的数量)的全连接操作和一个softmax操作的分支。

定义和初始化模型参数和状态

为每个操作定义参数，并将它们包含在一个结构中。使用格式parameters.OperationName.ParameterName在哪里参数结构是什么，OperationName操作的名称(例如“conv1”)和ParameterName是参数的名称(例如，“Weights”)。

创建一个结构参数包含模型参数。初始化可学习的层权重和偏差initializeGlorot而且initializeZeros分别为示例函数。属性初始化批归一化偏移量和缩放参数initializeZeros而且initializeOnes分别为示例函数。

要使用批处理归一化层执行训练和推断，还必须管理网络状态。在预测之前，必须指定从训练数据中得到的数据集平均值和方差。创建一个结构状态包含状态参数。批归一化统计信息不能是dlarray对象。初始化批归一化训练的平均值和训练的方差状态0而且的函数,分别。

初始化示例函数作为支持文件附加到本示例中。金宝app

初始化第一个卷积层的参数。

filterSize = [5 5];numChannels = 1;numFilters = 16;sz = [filterSize numChannels numFilters];numOut = prod(filterSize) * numFilters;numIn = prod(filterSize) * numFilters;parameters.conv1。Weights = initializeGlorot(sz,numOut,numIn);parameters.conv1。偏差= initializeZeros([numFilters 1]);

初始化第一批规格化层的参数和状态。

parameters.batchnorm1。Offset = initializeZeros([numFilters 1]);parameters.batchnorm1。Scale = initializeOnes([numFilters 1]);state.batchnorm1。TrainedMean = 0 (numFilters,1，“单一”）;state.batchnorm1。TrainedVariance = ones(numFilters,1，“单一”）;

初始化第二个卷积层的参数。

filterSize = [3 3];numChannels = 16;numFilters = 32;sz = [filterSize numChannels numFilters];numOut = prod(filterSize) * numFilters;numIn = prod(filterSize) * numFilters;parameters.conv2。Weights = initializeGlorot(sz,numOut,numIn);parameters.conv2。偏差= initializeZeros([numFilters 1]);

初始化第二个批处理规范化层的参数和状态。

parameters.batchnorm2。Offset = initializeZeros([numFilters 1]);parameters.batchnorm2。Scale = initializeOnes([numFilters 1]);state.batchnorm2。TrainedMean = 0 (numFilters,1，“单一”）;state.batchnorm2。TrainedVariance = ones(numFilters,1，“单一”）;

初始化第三个卷积层的参数。

filterSize = [3 3];numChannels = 32;numFilters = 32;sz = [filterSize numChannels numFilters];numOut = prod(filterSize) * numFilters;numIn = prod(filterSize) * numFilters;parameters.conv3。Weights = initializeGlorot(sz,numOut,numIn);parameters.conv3。偏差= initializeZeros([numFilters 1]);

初始化第三批规范化层的参数和状态。

parameters.batchnorm3。Offset = initializeZeros([numFilters 1]);parameters.batchnorm3。Scale = initializeOnes([numFilters 1]);state.batchnorm3。TrainedMean = 0 (numFilters,1，“单一”）;state.batchnorm3。TrainedVariance = ones(numFilters,1，“单一”）;

初始化跳过连接中卷积层的参数。

filterSize = [1 1];numChannels = 16;numFilters = 32;sz = [filterSize numChannels numFilters];numOut = prod(filterSize) * numFilters;numIn = prod(filterSize) * numFilters;parameters.convSkip.Weights = initializeGlorot(sz,numOut,numIn);parameters.convSkip.Bias = initializeZeros([numFilters 1]);

在跳过连接中初始化批处理规范化层的参数和状态。

parameters.batchnormSkip.Offset = initializeZeros([numFilters 1]);parameters.batchnormSkip.Scale = initializeOnes([numFilters 1]);state.batchnormSkip.TrainedMean = 0 ([numFilters 1]，“单一”）;state.batchnormSkip.TrainedVariance = ones([numFilters 1]，“单一”）;

初始化分类输出对应的全连接层的参数。

sz = [numClasses 6272];numOut = numClasses;numIn = 6272;parameters.fc1。Weights = initializeGlorot(sz,numOut,numIn);parameters.fc1。偏差= initializeZeros([numClasses 1]);

初始化与回归输出相对应的全连接层的参数。

sz = [numResponses 6272];numOut = numResponses;numIn = 6272;parameters.fc2。Weights = initializeGlorot(sz,numOut,numIn);parameters.fc2。偏差= initializeZeros([numResponses 1]);

查看参数的结构。

参数

参数=带字段的结构:conv1:(1×1结构)batchnorm1:[1×1 struct] conv2:[1×1 struct] batchnorm2:[1×1 struct] conv3:[1×1 struct] batchnorm3:[1×1 struct] convSkip:[1×1 struct] batchnormSkip:[1×1 struct] fc1:[1×1 struct] fc2:[1×1 struct]

查看“conv1”操作的参数。

parameters.conv1

ans =带字段的结构:权重:[5×5×1×16 dlarray]偏差:[16×1 dlarray]

查看状态的结构。

状态

状态=带字段的结构:batchnorm1: [1×1 struct] batchnorm2: [1×1 struct] batchnorm3: [1×1 struct] batchnormSkip: [1×1 struct]

查看batchnorm1操作的状态参数。

state.batchnorm1

ans =带字段的结构:TrainedMean: [16×1 single] TrainedVariance: [16×1 single]

定义模型函数

创建函数模型，列在示例末尾，用于计算前面描述的深度学习模型的输出。

这个函数模型取模型参数参数，输入数据dlX，旗帜doTraining它指定了模型是否应该返回用于训练或预测的输出，以及网络状态状态．网络输出标签的预测、角度的预测和更新的网络状态。

定义模型梯度函数

创建函数modelGradients(示例末尾列出的)，它接受模型参数，是一小批输入数据dlX有相应的目标T1而且T2分别包含标签和角度，并返回相对于可学习参数的损失梯度、更新的网络状态和相应的损失。

指定培训项目

指定培训选项。训练20个epoch，迷你批量大小为128。

numEpochs = 20;miniBatchSize = 128;

为了监控训练进度，您可以在每次迭代后绘制训练损失图。创建包含“训练进度”的变量图。如果您不想绘制训练进度，则将此值设置为“none”。

情节=“训练进步”；

火车模型

使用minibatchqueue处理和管理小批量的图像。对于每个小批量:

使用自定义小批量预处理功能preprocessMiniBatch(在本例末尾定义)来对类标签进行一次性编码。
用尺寸标签格式化图像数据“SSCB”(空间，空间，通道，批次)。默认情况下，minibatchqueue对象将数据转换为dlarray具有基础类型的对象单．不要向类标签或角度添加格式。
如果有GPU，可以在GPU上进行训练。默认情况下，minibatchqueue对象将每个输出转换为gpuArray如果GPU可用。使用GPU需要并行计算工具箱™和受支持的GPU设备。金宝app有关受支持设备的信息，请参见金宝appGPU支金宝app持版本(并行计算工具箱)．

mbq = minibatchqueue(dsTrain，.．.“MiniBatchSize”miniBatchSize,.．.“MiniBatchFcn”@preprocessMiniBatch,.．.“MiniBatchFormat”, {“SSCB”，”，”})；

对于每个纪元，洗牌数据并在小批量数据上循环。在每次迭代结束时，显示训练进度。对于每个小批量:

评估模型的梯度和损失dlfeval和modelGradients函数。
方法更新网络参数adamupdate函数。

初始化Adam的参数。

trailingAvg = [];trailingAvgSq = [];

初始化培训进度图。

如果情节= =“训练进步”图lineLossTrain = animatedline(“颜色”，[0.85 0.325 0.098]);Ylim ([0 inf]) xlabel(“迭代”) ylabel (“损失”网格)在结束

训练模型。

迭代= 0;开始= tic;%遍历epoch。为epoch = 1:numEpochs% Shuffle数据。洗牌(兆贝可)在小批上循环而Hasdata (mbq)迭代=迭代+ 1;[dlX,dlY1,dlY2] = next(mbq);使用dlfeval和% modelGradients函数。[gradients,state,loss] = dlfeval(@modelGradients, parameters, dlX, dlY1, dlY2, state);使用Adam优化器更新网络参数。。[parameters,trailingAvg,trailingAvgSq] = adamupdate(参数，梯度，.．.trailingAvg trailingAvgSq,迭代);%显示培训进度。如果情节= =“训练进步”D = duration(0,0,toc(start)，“格式”，“hh: mm: ss”）;addpoints (lineLossTrain、迭代、双(收集(extractdata(损失))))标题(”时代:“+ epoch +，消失:"+字符串(D))现在绘制结束结束结束

测试模型

通过将测试集上的预测结果与真实标签和角度进行比较，测试模型的分类精度。方法管理测试数据集minibatchqueue对象使用与训练数据相同的设置。

[XTest,YTest,anglesTest] = digitTest4DArrayData;dsXTest = arrayDatastore“IterationDimension”4);dsYTest = arrayDatastore(YTest);dsAnglesTest = arrayDatastore(anglesTest);dsTest = combine(dsXTest,dsYTest,dsAnglesTest);mbqTest = minibatchqueue(dsTest.．.“MiniBatchSize”miniBatchSize,.．.“MiniBatchFcn”@preprocessMiniBatch,.．.“MiniBatchFormat”, {“SSCB”，”，”})；

为预测验证数据的标签和角度，在小批上进行循环，并使用模型函数doTraining选项设置为假．存储预测的类和角度。比较预测和真实的类和角度，并存储结果。

doTraining = false;classesforecasts = [];anglesforecasts = [];classCorr = [];angleDiff = [];在小批上循环。而hasdata (mbqTest)读取小批数据。[dlXTest,dlY1Test,dlY2Test] = next(mbqTest);使用预测函数进行预测。[dlY1Pred,dlY2Pred] = model(参数，dlXTest,doTraining,state);确定预测的类。Y1PredBatch = onehotdecode(dlY1Pred,classNames,1);classesforecasts = [classesforecasts Y1PredBatch];% Dermine预测角度Y2PredBatch = extractdata(dlY2Pred);anglesforecasts = [anglesforecasts Y2PredBatch];比较预测的和真实的类。Y1Test = onehotdecode(dlY1Test,classNames,1);classCorr = [classCorr Y1PredBatch == Y1Test];比较预测角度和真实角度。angleDiffBatch = Y2PredBatch - dlY2Test;angleDiff = [angleDiff extractdata(gather(angleDiffBatch))];结束

评估分类准确率。

精确度=平均值(classCorr)

准确度= 0.9730

评估回归精度。

angleRMSE =√(mean(angleDiff.^2))

angleRMSE =单6.6909

查看一些带有预测的图片。红色显示预测角度，绿色显示正确标签。

idx = randperm(size(XTest,4)，9);数字为i = 1:9 subplot(3,3,i) i = XTest(:，:，:，idx(i));imshow (I)在sz = size(I,1);Offset = sz/2;thetaPred =角预测(idx(i));plot(offset*[1-tand(thetaPred) 1+tand(thetaPred)]，[sz 0]，“r——”) thetaValidation = anglesTest(idx(i));plot(offset*[1-tand(thetaValidation) 1+tand(thetaValidation)]，[sz 0]，，“g——”)举行从label = string(classesforecasts (idx(i)));标题(”的标签:“+标签)结束

模型函数

函数[dlY1,dlY2,state] = model(parameters,dlX,doTraining,state)%卷积weights = parameters.conv1.Weights;bias = parameters.conv1.Bias;dlY = dlconv(dlX，权重，偏差，“填充”，“相同”）;批处理归一化，ReLUoffset = parameters.batchnorm1.Offset;scale = parameters.batchnorm1.Scale;trainedMean = state.batchnorm1.TrainedMean;trainedVariance = state.batchnorm1.TrainedVariance;如果doTraining [dlY,trainedMean,trainedVariance] = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);%更新状态state.batchnorm1。受过训练的人;state.batchnorm1。trained方差= trained方差;其他的dlY = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);结束dlY = relu(dlY);%卷积，批量归一化(跳过连接)weights = parameters.convSkip.Weights;bias = parameters.convSkip.Bias;dlYSkip = dlconv(dlY，权重，偏差，“步”2);offset = parameters.batchnormSkip.Offset;scale = parameters.batchnormSkip.Scale;trainedMean = state.batchnormSkip.TrainedMean;trainedVariance = state.batchnormSkip.TrainedVariance;如果doTraining [dlYSkip,trainedMean,trainedVariance] = batchnorm(dlYSkip,offset,scale,trainedMean,trainedVariance);%更新状态state.batchnormSkip.TrainedMean = trainedMean;state.batchnormSkip.TrainedVariance = trainedVariance;其他的dlYSkip = batchnorm(dlYSkip,offset,scale,trainedMean,trainedVariance);结束%卷积weights = parameters.conv2.Weights;bias = parameters.conv2.Bias;dlY = dlconv(dlY，权重，偏差，“填充”，“相同”，“步”2);批处理归一化，ReLUoffset = parameters.batchnorm2.Offset;scale = parameters.batchnorm2.Scale;trainedMean = state.batchnorm2.TrainedMean;trainedVariance = state.batchnorm2.TrainedVariance;如果doTraining [dlY,trainedMean,trainedVariance] = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);%更新状态state.batchnorm2。受过训练的人;state.batchnorm2。trained方差= trained方差;其他的dlY = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);结束dlY = relu(dlY);%卷积weights = parameters.conv3.Weights;bias = parameters.conv3.Bias;dlY = dlconv(dlY，权重，偏差，“填充”，“相同”）;批归一化offset = parameters.batchnorm3.Offset;scale = parameters.batchnorm3.Scale;trainedMean = state.batchnorm3.TrainedMean;trainedVariance = state.batchnorm3.TrainedVariance;如果doTraining [dlY,trainedMean,trainedVariance] = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);%更新状态state.batchnorm3。受过训练的人;state.batchnorm3。trained方差= trained方差;其他的dlY = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);结束%加法，ReLUdlY = dlYSkip + dlY;dlY = relu(dlY);%完全连接，softmax(标签)weights = parameters.fc1.Weights;bias = parameters.fc1.Bias;dlY1 =完全连接(dlY，权重，偏差);dlY1 = softmax(dlY1);%完全连接(角度)weights = parameters.fc2.Weights;bias = parameters.fc2.Bias;dlY2 =完全连接(dlY，权重，偏差);结束

模型梯度函数

的modelGradients函数，取模型参数，输入小批量数据dlX有相应的目标T1而且T2分别包含标签和角度，并返回相对于可学习参数的损失梯度、更新的网络状态和相应的损失。

函数[gradients,state,loss] = modelGradients(parameters,dlX,T1,T2,state) doTraining = true;[dlY1,dlY2,state] = model(parameters,dlX,doTraining,state);lossLabels = crossentropy(dlY1,T1);lossAngles = mse(dlY2,T2);loss = lossLabels + 0.1*lossAngles;Gradients = dlgradient(损失，参数);结束

小批量预处理功能

的preprocessMiniBatch函数按照以下步骤对数据进行预处理:

从传入单元格数组中提取图像数据并连接到数值数组中。将图像数据连接到第四个维度将为每个图像添加第三个维度，用作单通道维度。
从传入单元格数组中提取标签和角度数据，并沿着第二维分别连接到分类数组和数值数组。
One-hot将分类标签编码为数字数组。编码到第一个维度会产生一个与网络输出形状匹配的编码数组。

函数[X,Y,angle] = preprocessMiniBatch(XCell,YCell,angleCell)从单元格和拼接中提取图像数据X = cat(4,XCell{:});从单元格和级联中提取标签数据Y = cat(2,YCell{:});从单元格和拼接中提取角度数据angle = cat(2,angleCell{:});单热编码标签Y = onehotencode(Y,1);结束

另请参阅