rlRepresentationOptions

为强化学习代理人表示设置选项(评论家和演员)

创建

描述

例子

repOpts= rlRepresentationOptions创建一个默认选项设置为最后一个参数创造了强化学习的演员或批评时使用。您可以修改使用点符号对象属性。

例子

repOpts= rlRepresentationOptions(名称,值)使用指定的选项集创建一个选项集属性使用一个或多个名称-值对参数。

属性

展开全部

为表示学习率,指定为逗号分隔的一对组成的“LearnRate”一个正的标量。如果学习率太低,那么培训就需要很长时间。如果学习率过高,则训练可能会出现次优或发散。

例:'LearnRate',0.025

用于训练表示的网络的优化器,指定为由逗号分隔的对组成“优化”和下列字符串之一:

  • “亚当”-使用亚当优化。可以使用。指定梯度和平方梯度移动平均线的衰减率GradientDecayFactorSquaredGradientDecayFactor领域OptimizerParameters选项。

  • “SGDM”- 使用随机梯度下降动量(SGDM)优化。您可以使用指定的势头值动力场的OptimizerParameters选项。

  • “rmsprop”-使用RMSProp优化器。可以指定平方梯度移动平均线的衰减率SquaredGradientDecayFactor领域OptimizerParameters选项。

有关这些优化的更多信息,请参阅随机梯度下降(深度学习工具箱)中的算法部分trainingOptions在深学习工具箱™。

例:'优化', “SGDM”

为优化适用的参数,指定为逗号分隔的一对组成的'OptimizerParameters'和一个OptimizerParameters宾语。

OptimizerParameters对象具有以下属性。

动力

前一步骤的贡献,指定为从0表示没有来自前一步骤的贡献为0〜1的值的标。的值为1表示最大的贡献。

此参数仅适用于以下情况优化器“SGDM”。在这种情况下,默认值是0.9。这个默认值适用于大多数问题。

小量

分母偏移,指定为正标量。优化器会将此偏移在网络参数更新分母零,以避免分裂。

此参数仅适用于以下情况优化器“亚当”要么rmsprop。在这种情况下,默认值是108。这个默认值适用于大多数问题。

GradientDecayFactor

梯度移动平均的衰减率,指定为从0到1的正标量。

此参数仅适用于以下情况优化器“亚当”。在这种情况下,默认值是0.9。这个默认值适用于大多数问题。

SquaredGradientDecayFactor

平方梯度移动平均的衰减率,指定为从0到1的正标量。

此参数仅适用于以下情况优化器“亚当”要么“rmsprop”。在这种情况下,默认值是0.999。这个默认值适用于大多数问题。

当一个特定属性OptimizerParameters并不适用于在指定的优化类型优化器选项,属性设置为“不适用”

要更改默认值,创建rlRepresentationOptions设置和使用点符号来访问和更改的属性OptimizerParameters

repOpts = rlRepresentationOptions;repOpts.OptimizerParameters.Epsilon = 1E-7;

为表示梯度阈值,指定为逗号分隔的一对组成的'GradientThreshold'天道酬勤或正标量。如果梯度超过此值,由指定的梯度被削波GradientThresholdOption。裁剪梯度限制了训练迭代中网络参数的变化量。

例:“GradientThreshold”, 1

梯度阈值法用于剪切超过梯度阈值的梯度值,指定由逗号分隔的对组成“GradientThresholdMethod”和下列字符串之一:

  • “l2norm”——如果l2一个可学习参数的梯度的范数大于GradientThreshold,然后缩放梯度,使l2规范平等GradientThreshold

  • “global-l2norm”- 如果全球l2规范,l,大于GradientThreshold,然后通过一个因子缩放所有梯度GradientThreshold /l。全球l2规范考虑了所有可以学习的参数。

  • “绝对值”-如果一个可学参数的梯度中的单个偏导数的绝对值大于GradientThreshold,然后,扩展的偏导数为具有大小等于GradientThreshold和保留的偏导数的符号。

有关更多信息,请参见渐变剪辑(深度学习工具箱)中的算法部分trainingOptions在深度学习工具箱。

例:“GradientThresholdMethod”、“绝对值”

因素l2正则化(重量衰减),指定为逗号分隔的一对组成的'L2RegularizationFactor'和一个非负的标量。有关更多信息,请参见L2正规化(深度学习工具箱)中的算法部分trainingOptions在深度学习工具箱。

为了避免使用带有许多参数的表示时过度拟合,考虑增加L2RegularizationFactor选项。

例:“L2RegularizationFactor”, 0.0005

用于训练使用该表示的代理的计算设备,指定为由'UseDevice',要么“cpu”要么“图形”

“图形”选项需要并行计算工具箱™。要使用GPU来训练网络,你必须有一个CUDA®启用NVIDIA®具有计算能力3.0或更高的GPU。

例:“UseDevice”、“gpu”

对象的功能

rlValueRepresentation 为强化学习代理商的价值功能评论家表示
rlQValueRepresentation 增强学习代理的q值函数批评表示
rlDeterministicActorRepresentation 为强化学习代理商确定性演员表现
rlStochasticActorRepresentation 为强化学习代理随机演员表现

例子

全部收缩

创建用于为增强学习代理创建批评家或参与者表示的选项集。将表示的学习率设置为0.05,将梯度阈值设置为1。在创建选项集时,可以使用名称、值对设置选项。没有显式设置的任何选项都有其默认值。

repOpts = rlRepresentationOptions(“LearnRate”,5E-2,'GradientThreshold',1)
repOpts = rlRepresentationOptions with properties: LearnRate: 0.0500 GradientThreshold: 1 GradientThreshold method: "l2norm" L2RegularizationFactor: 1.0000e-04 UseDevice: "cpu" Optimizer: "adam" OptimizerParameters: [1x1 rl.opt .OptimizerParameters]

另外,创建一个默认选项设置和使用点记号改变一些价值观。

repOpts = rlRepresentationOptions;repOpts.LearnRate = 5E-2;repOpts.GradientThreshold = 1
repOpts = rlRepresentationOptions with properties: LearnRate: 0.0500 GradientThreshold: 1 GradientThreshold method: "l2norm" L2RegularizationFactor: 1.0000e-04 UseDevice: "cpu" Optimizer: "adam" OptimizerParameters: [1x1 rl.opt .OptimizerParameters]

如果你想改变的属性OptimizerParameters选项,使用点符号来访问它们。

repOpts.OptimizerParameters.Epsilon = 1E-7;repOpts.OptimizerParameters
ANS = OptimizerParameters与属性:动量: “不适用” 的Epsilon:1.0000e-07 GradientDecayFactor:0.9000 SquaredGradientDecayFactor:0.9990

介绍了R2019a