主要内容

定义自定义训练循环的模型损失函数

当你用一个定制的训练循环训练一个深度学习模型时,软件会最小化关于可学习参数的损失。为了使损失最小化,该软件使用了损失相对于可学习参数的梯度。要使用自动微分来计算这些梯度,必须定义一个模型梯度函数。

一个例子展示了如何训练深度学习模型与dlnetwork对象,看到使用自定义训练循环训练网络.有关演示如何训练定义为函数的深度学习模型的示例,请参见利用模型函数训练网络

为定义为的模型创建模型损失函数dlnetwork对象

如果你有一个深度学习模型被定义为dlnetwork对象,然后创建模型损失函数dlnetwork对象作为输入。

对于指定为的模型dlnetwork对象,创建窗体的函数[loss,gradients] = modelLoss(net,X,T),在那里就是网络,X是网络输入,T包含目标和损失而且梯度分别为返回损失和梯度。可选地,您可以向gradients函数传递额外的参数(例如,如果损失函数需要额外的信息),或者返回额外的参数(例如,更新的网络状态)。

例如,该函数返回交叉熵损失和损失相对于指定的可学习参数的梯度dlnetwork对象,给定输入数据X,及目标T

函数[loss,gradients] = modelLoss(net,X,T)通过dlnetwork对象转发数据。Y = forward(net,X);计算损失。损失=交叉熵(Y,T);计算梯度。gradients = dlgradient(loss,net.Learnables);结束

为定义为函数的模型创建模型损失函数

如果你有一个定义为函数的深度学习模型,那么创建一个模型损失函数,将模型可学习参数作为输入。

对于指定为函数的模型,请创建该形式的函数[loss,gradients] = modelLoss(parameters,X,T),在那里参数包含可学习参数,X为模型输入,T包含目标和损失而且梯度分别为返回损失和梯度。可选地,您可以向gradients函数传递额外的参数(例如,如果损失函数需要额外的信息),或者返回额外的参数(例如,更新的模型状态)。

例如,该函数返回交叉熵损失和损失相对于可学习参数的梯度参数,给定输入数据X,及目标T

函数[loss,gradients] = modelLoss(parameters,X,T)通过模型函数转发数据。Y =模型(参数,X);计算损失。损失=交叉熵(Y,T);计算梯度。Gradients = dlgradient(损失,参数);结束

评估模型损失函数

要使用自动微分来评估模型损失函数,请使用dlfeval函数,它计算启用了自动区分的函数。的第一个输入dlfeval,传递指定为函数句柄的模型损失函数。对于以下输入,传递模型损失函数所需的变量。的输出dlfeval函数,指定与模型损失函数相同的输出。

例如,评估模型损失函数modelLoss与一个dlnetwork对象,输入数据X,及目标T,并返回模型损失和梯度。

[loss,gradients] = dlfeval(@modelLoss,net,X,T);

类似地,评估模型损失函数modelLoss使用由结构指定的具有可学习参数的模型函数参数,输入数据X,及目标T,并返回模型损失和梯度。

[loss,gradients] = dlfeval(@modelLoss,parameters,X,T);

使用梯度更新可学习参数

要使用梯度更新可学习参数,可以使用以下函数。

函数 描述
adamupdate 使用自适应矩估计更新参数(Adam)
rmspropupdate 使用均方根传播(RMSProp)更新参数
sgdmupdate 使用随机动量梯度下降(SGDM)更新参数
dlupdate 使用自定义函数更新参数

例如,更新a的可学习参数dlnetwork对象使用adamupdate函数。

[net,trailingAvg,trailingAvgSq] = adamupdate(net,gradients,...trailingAvg trailingAverageSq,迭代);
在这里,梯度损失的梯度是关于可学习参数,和trailingAvgtrailingAvgSq,迭代类是否需要超参数adamupdate函数。

类似地,更新模型函数的可学习参数参数使用adamupdate函数。

[parameters,trailingAvg,trailingAvgSq] = adamupdate(参数,梯度,...trailingAvg trailingAverageSq,迭代);
在这里,梯度损失的梯度是关于可学习参数,和trailingAvgtrailingAvgSq,迭代类是否需要超参数adamupdate函数。

在自定义训练循环中使用模型损失函数

当使用自定义训练循环训练深度学习模型时,评估模型损失和梯度,并更新每个小批的可学习参数。

方法的示例dlfeval而且adamupdate自定义训练循环中的函数。

迭代= 0;%遍历epoch。epoch = 1:numEpochs在小批上循环。i = 1:numIterationsPerEpoch迭代=迭代+ 1;准备小批量。%……评估模型损失和梯度。[loss,gradients] = dlfeval(@modelLoss,net,X,T);更新可学习参数。[parameters,trailingAvg,trailingAvgSq] = adamupdate(参数,梯度,...trailingAvg trailingAverageSq,迭代);结束结束

一个例子展示了如何训练一个深度学习模型dlnetwork对象,看到使用自定义训练循环训练网络.有关演示如何训练定义为函数的深度学习模型的示例,请参见利用模型函数训练网络

调试模型损失函数

如果模型丢失函数的实现有问题,则调用dlfeval可以抛出错误。有时候,当你使用dlfeval函数时,不清楚抛出错误的是哪一行代码。为了帮助定位错误,您可以尝试以下方法。

直接调用模型损失函数

方法直接调用模型损失函数(即不使用dlfeval函数),并生成预期大小的输入。如果任何一行代码抛出错误,则错误消息将提供额外的详细信息。注意,当您不使用dlfeval函数的任何调用dlgradient函数抛出错误。

生成图像输入数据。X = rand([28 28 1 100],“单一”);X = dlarray(X);生成单热编码目标数据。T = repmat(眼睛)“单一”), 10 [1]);[loss,gradients] = modelLoss(net,X,T);

手动运行模型丢失代码

手动运行模型损失函数中的代码,生成预期大小的输入,并检查输出和任何抛出的错误消息。

例如,考虑下面的模型损失函数。

函数[loss,gradients] = modelLoss(net,X,T)通过dlnetwork对象转发数据。Y = forward(net,X);计算损失。损失=交叉熵(Y,T);计算梯度。gradients = dlgradient(loss,net.Learnables);结束

运行以下代码检查模型丢失函数。

生成图像输入数据。X = rand([28 28 1 100],“单一”);X = dlarray(X);生成单热编码目标数据。T = repmat(眼睛)“单一”), 10 [1]);%检查向前通过。Y = forward(net,X);检查损失计算。损失=交叉熵(Y,T)

相关的话题