文档帮助中心文档
强化学习代理表示的选项集(批评者和参与者)
使用一个rlRepresentationOptions对象来指定一个选项集(rlValueRepresentation,rlQValueRepresentation)及演员(rlDeterministicActorRepresentation,随机表示).
rlRepresentationOptions
rlValueRepresentation
rlQValueRepresentation
rlDeterministicActorRepresentation
随机表示
repOpts=rlRepresentationOptions
repOpts = rlRepresentationOptions(名称、值)
例子
报告= rlRepresentationOptions创建默认选项集,作为创建强化学习参与者或评论家时的最后一个参数。可以使用点表示法修改对象属性。
报告= rlRepresentationOptions
报告
报告=rlRepresentationOptions(名称、值)使用指定的属性使用一个或多个名称-值对参数。
报告=rlRepresentationOptions(名称、值)
名称、值
全部展开
LearnRate
0.01
表示的学习率,指定为正标量。如果学习率太低,则训练需要很长时间。如果学习率太高,则训练可能会达到次优结果或偏离。
例子:“LearnRate”,0.025
“LearnRate”,0.025
优化器
“亚当”
“sgdm”
“rmsprop”
优化器用于训练网络的表示法,指定为下列值之一。
“亚当”-使用亚当优化器。可以指定梯度和平方梯度移动平均的衰减率梯度衰变因子和SquaredGradientDecayFactor田野优化参数选项
梯度衰变因子
SquaredGradientDecayFactor
优化参数
“sgdm”-使用随机梯度下降动量(SGDM)优化器。您可以使用动力场的优化参数选项
动力
“rmsprop”—使用RMSProp优化器。您可以指定衰减速率的平方梯度移动平均使用SquaredGradientDecayFactor田野优化参数选项
有关这些优化器的更多信息,请参阅随机梯度下降法在的算法部分培训选项在深度学习工具箱中™.
培训选项
例子:“优化器”、“sgdm”
“优化器”、“sgdm”
优化器的适用参数,指定为优化参数具有以下参数的对象。
上一步的贡献,指定为0到1之间的标量。值0表示上一步没有贡献。值1表示最大贡献。
该参数仅适用于以下情况优化器是“sgdm”.在这种情况下,默认值是0.9。这个默认值适用于大多数问题。
ε
分母偏移量,指定为正标量。优化器将此偏移量添加到网络参数更新中的分母中,以避免被零除。
该参数仅适用于以下情况优化器是“亚当”或“rmsprop”.在这种情况下,默认值是108.这个默认值适用于大多数问题。
梯度移动平均的衰减率,指定为从0到1的一个正标量。
该参数仅适用于以下情况优化器是“亚当”.在这种情况下,默认值是0.9。这个默认值适用于大多数问题。
平方梯度移动平均的衰减率,指定为从0到1的一个正标量。
该参数仅适用于以下情况优化器是“亚当”或“rmsprop”。在这种情况下,默认值为0.999。此默认值适用于大多数问题。
当一个特定的财产优化参数不适用于中指定的优化器类型优化器选项,则该属性设置为“不适用”.
“不适用”
要更改默认值,请创建rlRepresentationOptions设置并使用点符号来访问和更改属性优化参数.
repOpts = rlRepresentationOptions;repOpts.OptimizerParameters.GradientDecayFactor = 0.95;
GradientThreshold
Inf
表示渐变的阈值,指定为Inf或正标量。如果渐变超过此值,则按照GradientThresholdMethod选项剪裁梯度限制了网络参数在训练迭代中的变化量。
GradientThresholdMethod
例子:“GradientThreshold”,1
“GradientThreshold”,1
“l2norm”
“global-l2norm”
“绝对值”
渐变阈值方法用于剪裁超过渐变阈值的渐变值,指定为以下值之一。
“l2norm”——如果l2可学习参数的梯度范数大于GradientThreshold,然后缩放梯度,以便l2范数等于GradientThreshold.
“global-l2norm”-如果全球l2标准l,大于GradientThreshold,然后按比例缩放所有渐变GradientThreshold /l.全球l2norm考虑所有可学习的参数。
GradientThreshold /
“绝对值”—可学习参数梯度中单个偏导数的绝对值大于GradientThreshold,然后缩放偏导数,使其大小等于GradientThreshold保留偏导数的符号。
有关更多信息,请参见梯度削波在的算法部分培训选项在深度学习工具箱。
例子:“GradientThresholdMethod”、“绝对值”
“GradientThresholdMethod”、“绝对值”
L2RegularizationFactor
因素l2正则化(权值衰减),指定为非负标量。有关更多信息,请参见L2正规化在的算法部分培训选项在深度学习工具箱。
为了避免在使用具有多个参数的表示时过度拟合,考虑增加L2RegularizationFactor选项
例子:“L2RegularizationFactor”,0.0005
“L2RegularizationFactor”,0.0005
使用设备
“cpu”
“图形”
计算装置,用于在训练期间执行深度神经网络操作,如梯度计算、参数更新和预测。它被指定为“cpu”或“图形”.
的“图形”选项需要并行计算工具箱™软件和CUDA®启用NVIDIA®GPU。有关受支持的gpu的更多信息,请参阅金宝appGPU版金宝app本支持(并行计算工具箱).
你可以用gpuDevice(并行计算工具箱)查询或选择要与MATLAB一起使用的本地GPU设备®.
gpuDevice
请注意
在GPU上训练或模拟代理涉及特定于设备的数字舍入错误。与在CPU上执行相同操作相比,这些错误可以产生不同的结果。
注意,如果你想使用并行处理来加速训练,你不需要设置使用设备. 相反,在培训代理时,请使用RL培训选项对象,其中使用并行选项设置为符合事实的.有关使用多核处理器和gpu进行培训的更多信息,请参见使用并行计算和GPU训练代理.
RL培训选项
使用并行
符合事实的
例子:“UseDevice”、“gpu”
“UseDevice”、“gpu”
全部崩溃
创建用于为强化学习代理创建评论家或演员表示的选项集。设置表示的学习率为0.05,设置梯度阈值为1。在创建选项集时,可以使用名称、值对设置选项。没有显式设置的任何选项都有其默认值。
repOpts = rlRepresentationOptions (“LearnRate”,5e-2,...“梯度阈值”,1)
repOpts = rlRepresentationOptions属性:LearnRate: 0.0500 GradientThreshold: 1 GradientThresholdMethod:“l2norm”L2RegularizationFactor: 1.0000 e-04 UseDevice:“cpu”优化器:“亚当”OptimizerParameters: [1 x1 rl.option.OptimizerParameters]
或者,创建一个默认选项集,并使用点符号更改某些值。
repOpts=rlRepresentationOptions;repOpts.LearnRate=5e-2;repOpts.GradientThreshold=1
如果要更改优化参数选项,使用点符号来访问它们。
repOpts.OptimizerParameters.Epsilon=1e-7;repOpts.OptimizerParameters
ans=具有以下属性的优化参数:动量:“不适用”ε:1.0000e-07梯度衰减因子:0.9000平方根梯度衰减因子:0.9990
如果你有一个修改的版本,你就会喜欢它。您想再修改一下吗?
Hai fatto clic su un collegamento che Corrido向comando MATLAB提出了一个问题:
Esegui il comando inserendolo nella finestra di comando MATLAB。我浏览器web非supportano金宝app I命令MATLAB。
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
联系当地办事处