这个例子展示了如何通过使用函数而不是层图或函数来创建和训练深度学习网络dlnetwork
.使用函数的优点是可以灵活地描述各种各样的网络。缺点是必须完成更多的步骤并仔细准备数据。这个例子使用了手写数字的图像,它有两个目标,一是对数字进行分类,二是确定每个数字与垂直方向的角度。
的digitTrain4DArrayData
函数加载图像、它们的数字标签以及它们从垂直方向旋转的角度。创建arrayDatastore
对象的图像、标签和角度,然后使用结合
函数创建一个包含所有训练数据的单个数据存储。提取类名和非离散响应的数量。
[XTrain,YTrain,anglesTrain] = digitTrain4DArrayData;dsXTrain = arrayDatastore(XTrain,“IterationDimension”4);dsYTrain = arrayDatastore(YTrain);dsAnglesTrain = arrayDatastore(anglesTrain);dsTrain = combine(dsXTrain,dsYTrain,dsAnglesTrain);classNames =类别(YTrain);numClasses = numel(classNames);numResponses = size(anglesTrain,2);numObservations = numel(YTrain);
查看训练数据中的一些图像。
idx = randperm(numObservations,64);I = imtile(XTrain(:,:,:,idx));图imshow(我)
定义以下预测标签和旋转角度的网络。
带有16个5 × 5滤波器的卷积-batchnorm- relu块。
两个卷积批模块的分支,每个块有32个3 × 3滤波器,中间有一个ReLU操作
一个带有32个1乘1卷积的卷积批量模块的跳过连接。
使用加法和ReLU操作合并两个分支
对于回归输出,具有大小为1(响应的数量)的完全连接操作的分支。
对于分类输出,一个具有大小为10(类的数量)的全连接操作和一个softmax操作的分支。
为每个操作定义参数,并将它们包含在一个结构中。使用格式parameters.OperationName.ParameterName
在哪里参数
结构是什么,OperationName
操作的名称(例如“conv1”)和ParameterName
是参数的名称(例如,“Weights”)。
创建一个结构参数
包含模型参数。初始化可学习的层权重和偏差initializeGlorot
而且initializeZeros
分别为示例函数。属性初始化批归一化偏移量和缩放参数initializeZeros
而且initializeOnes
分别为示例函数。
要使用批处理归一化层执行训练和推断,还必须管理网络状态。在预测之前,必须指定从训练数据中得到的数据集平均值和方差。创建一个结构状态
包含状态参数。批归一化统计信息不能是dlarray
对象。初始化批归一化训练的平均值和训练的方差状态0
而且的
函数,分别。
初始化示例函数作为支持文件附加到本示例中。金宝app
初始化第一个卷积层的参数。
filterSize = [5 5];numChannels = 1;numFilters = 16;sz = [filterSize numChannels numFilters];numOut = prod(filterSize) * numFilters;numIn = prod(filterSize) * numFilters;parameters.conv1。Weights = initializeGlorot(sz,numOut,numIn);parameters.conv1。偏差= initializeZeros([numFilters 1]);
初始化第一批规格化层的参数和状态。
parameters.batchnorm1。Offset = initializeZeros([numFilters 1]);parameters.batchnorm1。Scale = initializeOnes([numFilters 1]);state.batchnorm1。TrainedMean = 0 (numFilters,1,“单一”);state.batchnorm1。TrainedVariance = ones(numFilters,1,“单一”);
初始化第二个卷积层的参数。
filterSize = [3 3];numChannels = 16;numFilters = 32;sz = [filterSize numChannels numFilters];numOut = prod(filterSize) * numFilters;numIn = prod(filterSize) * numFilters;parameters.conv2。Weights = initializeGlorot(sz,numOut,numIn);parameters.conv2。偏差= initializeZeros([numFilters 1]);
初始化第二个批处理规范化层的参数和状态。
parameters.batchnorm2。Offset = initializeZeros([numFilters 1]);parameters.batchnorm2。Scale = initializeOnes([numFilters 1]);state.batchnorm2。TrainedMean = 0 (numFilters,1,“单一”);state.batchnorm2。TrainedVariance = ones(numFilters,1,“单一”);
初始化第三个卷积层的参数。
filterSize = [3 3];numChannels = 32;numFilters = 32;sz = [filterSize numChannels numFilters];numOut = prod(filterSize) * numFilters;numIn = prod(filterSize) * numFilters;parameters.conv3。Weights = initializeGlorot(sz,numOut,numIn);parameters.conv3。偏差= initializeZeros([numFilters 1]);
初始化第三批规范化层的参数和状态。
parameters.batchnorm3。Offset = initializeZeros([numFilters 1]);parameters.batchnorm3。Scale = initializeOnes([numFilters 1]);state.batchnorm3。TrainedMean = 0 (numFilters,1,“单一”);state.batchnorm3。TrainedVariance = ones(numFilters,1,“单一”);
初始化跳过连接中卷积层的参数。
filterSize = [1 1];numChannels = 16;numFilters = 32;sz = [filterSize numChannels numFilters];numOut = prod(filterSize) * numFilters;numIn = prod(filterSize) * numFilters;parameters.convSkip.Weights = initializeGlorot(sz,numOut,numIn);parameters.convSkip.Bias = initializeZeros([numFilters 1]);
在跳过连接中初始化批处理规范化层的参数和状态。
parameters.batchnormSkip.Offset = initializeZeros([numFilters 1]);parameters.batchnormSkip.Scale = initializeOnes([numFilters 1]);state.batchnormSkip.TrainedMean = 0 ([numFilters 1],“单一”);state.batchnormSkip.TrainedVariance = ones([numFilters 1],“单一”);
初始化分类输出对应的全连接层的参数。
sz = [numClasses 6272];numOut = numClasses;numIn = 6272;parameters.fc1。Weights = initializeGlorot(sz,numOut,numIn);parameters.fc1。偏差= initializeZeros([numClasses 1]);
初始化与回归输出相对应的全连接层的参数。
sz = [numResponses 6272];numOut = numResponses;numIn = 6272;parameters.fc2。Weights = initializeGlorot(sz,numOut,numIn);parameters.fc2。偏差= initializeZeros([numResponses 1]);
查看参数的结构。
参数
参数=带字段的结构:conv1:(1×1结构)batchnorm1:[1×1 struct] conv2:[1×1 struct] batchnorm2:[1×1 struct] conv3:[1×1 struct] batchnorm3:[1×1 struct] convSkip:[1×1 struct] batchnormSkip:[1×1 struct] fc1:[1×1 struct] fc2:[1×1 struct]
查看“conv1”操作的参数。
parameters.conv1
ans =带字段的结构:权重:[5×5×1×16 dlarray]偏差:[16×1 dlarray]
查看状态的结构。
状态
状态=带字段的结构:batchnorm1: [1×1 struct] batchnorm2: [1×1 struct] batchnorm3: [1×1 struct] batchnormSkip: [1×1 struct]
查看batchnorm1操作的状态参数。
state.batchnorm1
ans =带字段的结构:TrainedMean: [16×1 single] TrainedVariance: [16×1 single]
创建函数模型
,列在示例末尾,用于计算前面描述的深度学习模型的输出。
这个函数模型
取模型参数参数
,输入数据dlX
,旗帜doTraining
它指定了模型是否应该返回用于训练或预测的输出,以及网络状态状态
.网络输出标签的预测、角度的预测和更新的网络状态。
创建函数modelGradients
(示例末尾列出的),它接受模型参数,是一小批输入数据dlX
有相应的目标T1
而且T2
分别包含标签和角度,并返回相对于可学习参数的损失梯度、更新的网络状态和相应的损失。
指定培训选项。训练20个epoch,迷你批量大小为128。
numEpochs = 20;miniBatchSize = 128;
为了监控训练进度,您可以在每次迭代后绘制训练损失图。创建包含“训练进度”的变量图。如果您不想绘制训练进度,则将此值设置为“none”。
情节=“训练进步”;
使用minibatchqueue
处理和管理小批量的图像。对于每个小批量:
使用自定义小批量预处理功能preprocessMiniBatch
(在本例末尾定义)来对类标签进行一次性编码。
用尺寸标签格式化图像数据“SSCB”
(空间,空间,通道,批次)。默认情况下,minibatchqueue
对象将数据转换为dlarray
具有基础类型的对象单
.不要向类标签或角度添加格式。
如果有GPU,可以在GPU上进行训练。默认情况下,minibatchqueue
对象将每个输出转换为gpuArray
如果GPU可用。使用GPU需要并行计算工具箱™和受支持的GPU设备。金宝app有关受支持设备的信息,请参见金宝appGPU支金宝app持版本(并行计算工具箱).
mbq = minibatchqueue(dsTrain,...“MiniBatchSize”miniBatchSize,...“MiniBatchFcn”@preprocessMiniBatch,...“MiniBatchFormat”, {“SSCB”,”,”});
对于每个纪元,洗牌数据并在小批量数据上循环。在每次迭代结束时,显示训练进度。对于每个小批量:
评估模型的梯度和损失dlfeval
和modelGradients
函数。
方法更新网络参数adamupdate
函数。
初始化Adam的参数。
trailingAvg = [];trailingAvgSq = [];
初始化培训进度图。
如果情节= =“训练进步”图lineLossTrain = animatedline(“颜色”,[0.85 0.325 0.098]);Ylim ([0 inf]) xlabel(“迭代”) ylabel (“损失”网格)在结束
训练模型。
迭代= 0;开始= tic;%遍历epoch。为epoch = 1:numEpochs% Shuffle数据。洗牌(兆贝可)在小批上循环而Hasdata (mbq)迭代=迭代+ 1;[dlX,dlY1,dlY2] = next(mbq);使用dlfeval和% modelGradients函数。[gradients,state,loss] = dlfeval(@modelGradients, parameters, dlX, dlY1, dlY2, state);使用Adam优化器更新网络参数。。[parameters,trailingAvg,trailingAvgSq] = adamupdate(参数,梯度,...trailingAvg trailingAvgSq,迭代);%显示培训进度。如果情节= =“训练进步”D = duration(0,0,toc(start),“格式”,“hh: mm: ss”);addpoints (lineLossTrain、迭代、双(收集(extractdata(损失))))标题(”时代:“+ epoch +,消失:"+字符串(D))现在绘制结束结束结束
通过将测试集上的预测结果与真实标签和角度进行比较,测试模型的分类精度。方法管理测试数据集minibatchqueue
对象使用与训练数据相同的设置。
[XTest,YTest,anglesTest] = digitTest4DArrayData;dsXTest = arrayDatastore“IterationDimension”4);dsYTest = arrayDatastore(YTest);dsAnglesTest = arrayDatastore(anglesTest);dsTest = combine(dsXTest,dsYTest,dsAnglesTest);mbqTest = minibatchqueue(dsTest...“MiniBatchSize”miniBatchSize,...“MiniBatchFcn”@preprocessMiniBatch,...“MiniBatchFormat”, {“SSCB”,”,”});
为预测验证数据的标签和角度,在小批上进行循环,并使用模型函数doTraining
选项设置为假
.存储预测的类和角度。比较预测和真实的类和角度,并存储结果。
doTraining = false;classesforecasts = [];anglesforecasts = [];classCorr = [];angleDiff = [];在小批上循环。而hasdata (mbqTest)读取小批数据。[dlXTest,dlY1Test,dlY2Test] = next(mbqTest);使用预测函数进行预测。[dlY1Pred,dlY2Pred] = model(参数,dlXTest,doTraining,state);确定预测的类。Y1PredBatch = onehotdecode(dlY1Pred,classNames,1);classesforecasts = [classesforecasts Y1PredBatch];% Dermine预测角度Y2PredBatch = extractdata(dlY2Pred);anglesforecasts = [anglesforecasts Y2PredBatch];比较预测的和真实的类。Y1Test = onehotdecode(dlY1Test,classNames,1);classCorr = [classCorr Y1PredBatch == Y1Test];比较预测角度和真实角度。angleDiffBatch = Y2PredBatch - dlY2Test;angleDiff = [angleDiff extractdata(gather(angleDiffBatch))];结束
评估分类准确率。
精确度=平均值(classCorr)
准确度= 0.9730
评估回归精度。
angleRMSE =√(mean(angleDiff.^2))
angleRMSE =单6.6909
查看一些带有预测的图片。红色显示预测角度,绿色显示正确标签。
idx = randperm(size(XTest,4),9);数字为i = 1:9 subplot(3,3,i) i = XTest(:,:,:,idx(i));imshow (I)在sz = size(I,1);Offset = sz/2;thetaPred =角预测(idx(i));plot(offset*[1-tand(thetaPred) 1+tand(thetaPred)],[sz 0],“r——”) thetaValidation = anglesTest(idx(i));plot(offset*[1-tand(thetaValidation) 1+tand(thetaValidation)],[sz 0],,“g——”)举行从label = string(classesforecasts (idx(i)));标题(”的标签:“+标签)结束
这个函数模型
取模型参数参数
,输入数据dlX
,旗帜doTraining
它指定了模型是否应该返回用于训练或预测的输出,以及网络状态状态
.网络输出标签的预测、角度的预测和更新的网络状态。
函数[dlY1,dlY2,state] = model(parameters,dlX,doTraining,state)%卷积weights = parameters.conv1.Weights;bias = parameters.conv1.Bias;dlY = dlconv(dlX,权重,偏差,“填充”,“相同”);批处理归一化,ReLUoffset = parameters.batchnorm1.Offset;scale = parameters.batchnorm1.Scale;trainedMean = state.batchnorm1.TrainedMean;trainedVariance = state.batchnorm1.TrainedVariance;如果doTraining [dlY,trainedMean,trainedVariance] = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);%更新状态state.batchnorm1。受过训练的人;state.batchnorm1。trained方差= trained方差;其他的dlY = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);结束dlY = relu(dlY);%卷积,批量归一化(跳过连接)weights = parameters.convSkip.Weights;bias = parameters.convSkip.Bias;dlYSkip = dlconv(dlY,权重,偏差,“步”2);offset = parameters.batchnormSkip.Offset;scale = parameters.batchnormSkip.Scale;trainedMean = state.batchnormSkip.TrainedMean;trainedVariance = state.batchnormSkip.TrainedVariance;如果doTraining [dlYSkip,trainedMean,trainedVariance] = batchnorm(dlYSkip,offset,scale,trainedMean,trainedVariance);%更新状态state.batchnormSkip.TrainedMean = trainedMean;state.batchnormSkip.TrainedVariance = trainedVariance;其他的dlYSkip = batchnorm(dlYSkip,offset,scale,trainedMean,trainedVariance);结束%卷积weights = parameters.conv2.Weights;bias = parameters.conv2.Bias;dlY = dlconv(dlY,权重,偏差,“填充”,“相同”,“步”2);批处理归一化,ReLUoffset = parameters.batchnorm2.Offset;scale = parameters.batchnorm2.Scale;trainedMean = state.batchnorm2.TrainedMean;trainedVariance = state.batchnorm2.TrainedVariance;如果doTraining [dlY,trainedMean,trainedVariance] = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);%更新状态state.batchnorm2。受过训练的人;state.batchnorm2。trained方差= trained方差;其他的dlY = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);结束dlY = relu(dlY);%卷积weights = parameters.conv3.Weights;bias = parameters.conv3.Bias;dlY = dlconv(dlY,权重,偏差,“填充”,“相同”);批归一化offset = parameters.batchnorm3.Offset;scale = parameters.batchnorm3.Scale;trainedMean = state.batchnorm3.TrainedMean;trainedVariance = state.batchnorm3.TrainedVariance;如果doTraining [dlY,trainedMean,trainedVariance] = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);%更新状态state.batchnorm3。受过训练的人;state.batchnorm3。trained方差= trained方差;其他的dlY = batchnorm(dlY,offset,scale,trainedMean,trainedVariance);结束%加法,ReLUdlY = dlYSkip + dlY;dlY = relu(dlY);%完全连接,softmax(标签)weights = parameters.fc1.Weights;bias = parameters.fc1.Bias;dlY1 =完全连接(dlY,权重,偏差);dlY1 = softmax(dlY1);%完全连接(角度)weights = parameters.fc2.Weights;bias = parameters.fc2.Bias;dlY2 =完全连接(dlY,权重,偏差);结束
的modelGradients
函数,取模型参数,输入小批量数据dlX
有相应的目标T1
而且T2
分别包含标签和角度,并返回相对于可学习参数的损失梯度、更新的网络状态和相应的损失。
函数[gradients,state,loss] = modelGradients(parameters,dlX,T1,T2,state) doTraining = true;[dlY1,dlY2,state] = model(parameters,dlX,doTraining,state);lossLabels = crossentropy(dlY1,T1);lossAngles = mse(dlY2,T2);loss = lossLabels + 0.1*lossAngles;Gradients = dlgradient(损失,参数);结束
的preprocessMiniBatch
函数按照以下步骤对数据进行预处理:
从传入单元格数组中提取图像数据并连接到数值数组中。将图像数据连接到第四个维度将为每个图像添加第三个维度,用作单通道维度。
从传入单元格数组中提取标签和角度数据,并沿着第二维分别连接到分类数组和数值数组。
One-hot将分类标签编码为数字数组。编码到第一个维度会产生一个与网络输出形状匹配的编码数组。
函数[X,Y,angle] = preprocessMiniBatch(XCell,YCell,angleCell)从单元格和拼接中提取图像数据X = cat(4,XCell{:});从单元格和级联中提取标签数据Y = cat(2,YCell{:});从单元格和拼接中提取角度数据angle = cat(2,angleCell{:});单热编码标签Y = onehotencode(Y,1);结束
dlarray
|sgdmupdate
|dlfeval
|dlgradient
|fullyconnect
|dlconv
|softmax
|线性整流函数(Rectified Linear Unit)
|batchnorm
|crossentropy
|minibatchqueue
|onehotencode
|onehotdecode