rlRepresentationOptions

强化学习代理表示的选项集（批评者和参与者）

在第页中展开全部

描述

使用rlRepresentationOptions对象指定评论家的选项集(rlValueRepresentation,rlQValueRepresentation)演员(决定论呈现,随机表示).

创造

语法

repOpts=rlRepresentationOptions

repOpts=rlRepresentationOptions（名称、值）

描述

实例

报告=rlRepresentationOptions创建默认选项集，作为创建强化学习参与者或评论家时的最后一个参数。可以使用点表示法修改对象属性。

实例

报告=rlRepresentationOptions(名称、值)创建具有指定属性的选项集性质使用一个或多个名称-值对参数。

性质

全部展开

`学习者`—代表的学习率
`0.01`（默认）|正标量

表示的学习率，指定为一个正标量。如果学习率太低，那么培训需要很长时间。如果学习率过高，那么训练可能会达到次优结果或发散。

例子：“LearnRate”，0.025

`优化器`—表示的优化器
`“亚当”`（默认）|`“sgdm”`|`“rmsprop”`

用于训练表示网络的优化器，指定为以下值之一。

“亚当”-使用Adam优化器。您可以使用梯度衰变因子和平方半径衰减因子的字段OptimizerParameters选择。
“sgdm”-使用随机梯度下降动量（SGDM）优化器。您可以使用推进力领域OptimizerParameters选择。
“rmsprop”-使用RMSProp优化器。您可以使用平方半径衰减因子的字段OptimizerParameters选择。

有关这些优化器的更多信息，请参阅随机梯度下降法在的算法部分培训选项在深度学习工具箱™。

例子：“优化器”、“sgdm”

`OptimizerParameters`—优化器的适用参数
`OptimizerParameters`对象

优化器的适用参数，指定为OptimizerParameters具有以下参数的对象。

参数	描述
`推进力`	上一步的贡献，指定为0到1之间的标量。值0表示上一步没有贡献。值1表示最大贡献。此参数仅在以下情况下适用：`优化器`是`“sgdm”`。在这种情况下，默认值为0.9。此默认值适用于大多数问题。
`ε`	分母偏移量，指定为正标量。优化器将此偏移量添加到网络参数更新中的分母中，以避免被零除。此参数仅在以下情况下适用：`优化器`是`“亚当”`或`“rmsprop”`。在这种情况下，默认值为10^–8。此默认值适用于大多数问题。
`梯度衰变因子`	梯度移动平均的衰减率，指定为从0到1的正标量。此参数仅在以下情况下适用：`优化器`是`“亚当”`。在这种情况下，默认值为0.9。此默认值适用于大多数问题。
`平方半径衰减因子`	平方梯度移动平均的衰减率，指定为从0到1的正标量。此参数仅在以下情况下适用：`优化器`是`“亚当”`或`“rmsprop”`。在这种情况下，默认值为0.999。此默认值适用于大多数问题。

当一个特定的财产OptimizerParameters不适用于中指定的优化器类型优化器选项，则该属性设置为“不适用”．

要更改默认值，请创建rlRepresentationOptions设置并使用点表示法来访问和更改OptimizerParameters．

repOpts=rlRepresentationOptions；repOpts.OptimizerParameters.GradientDecayFactor=0.95；

`梯度阈值`—梯度阈值
`Inf`（默认）|正标量

表示渐变的阈值，指定为Inf或正标量。如果渐变超过此值，则按照梯度阈值法选项剪裁梯度限制了网络参数在训练迭代中的变化量。

例子：“梯度阈值”，1

`梯度阈值法`—梯度阈值法
`“l2norm”`（默认）|`“全局l2norm”`|`“绝对值”`

渐变阈值方法用于剪裁超过渐变阈值的渐变值，指定为以下值之一。

“l2norm”-如果L_2.可学习参数的梯度范数大于梯度阈值，然后缩放渐变，使L_2.范数等于梯度阈值．
“全局l2norm”-如果全球L_2.标准L，大于梯度阈值，然后按比例缩放所有渐变梯度阈值/L.全球L_2.norm考虑所有可学习的参数。
“绝对值”-如果可学习参数梯度中单个偏导数的绝对值大于梯度阈值，然后缩放偏导数，使其大小等于梯度阈值保留偏导数的符号。

有关详细信息，请参阅梯度削波在的算法部分培训选项在深度学习工具箱中。

例子：“GradientThresholdMethod”，“绝对值”

`L2调节因子`—因素L_2.正规化
0.0001（默认）|非负标量

因素L_2.正则化（权重衰减），指定为非负标量。有关详细信息，请参阅L2正则化在的算法部分培训选项在深度学习工具箱中。

为了避免在使用具有多个参数的表示时过度拟合，考虑增加L2调节因子选择。

例子：“L2调节系数”，0.0005

`使用设备`—训练用计算装置
`“cpu”`（默认）|`“gpu”`

计算装置，用于在训练期间执行深度神经网络操作，如梯度计算、参数更新和预测。它被指定为“cpu”或“gpu”．

这个“gpu”该选项需要两个并行计算工具箱™ 软件和CUDA^®启用NVIDIA^®GPU。有关支持的GPU的更多信息，请参阅金宝appGPU版金宝app本支持（并行计算工具箱）．

你可以用gpuDevice（并行计算工具箱）查询或选择要与MATLAB一起使用的本地GPU设备^®．

笔记

在GPU上训练或模拟代理涉及特定于设备的数字舍入错误。与在CPU上执行相同操作相比，这些错误可以产生不同的结果。

请注意，如果要使用并行处理来加速训练，则不需要设置使用设备．相反，在训练你的特工时，使用RL培训选项对象，其中使用并行选项设置为符合事实的. 有关使用多核处理器和GPU进行培训的更多信息，请参阅使用并行计算和GPU训练代理．

例子：“使用设备”，“gpu”

目标函数

`rlValueRepresentation`	强化学习agent的价值函数批评表示
`rlQValueRepresentation`	强化学习agent的Q值函数批评表示
`决定论呈现`	强化学习代理的确定性参与者表示
`随机表示`	强化学习代理的随机参与者表示

例子

全部崩溃

配置用于创建表示的选项

打开实时脚本

创建用于为强化学习代理创建批评家或参与者表示的选项集。将表示的学习速率设置为0.05，并将渐变阈值设置为1。创建选项集时，可以使用名称、值对设置选项。未显式设置的任何选项都有其默认值。

repOpts=rlRepresentationOptions(“LearnRate”，5e-2，...“梯度阈值”,1)

repOpts=rlRepresentationOptions，属性：LearnRate:0.0500 GradientThreshold:1 GradientThresholdMethod:“l2norm”L2调节因子：1.0000e-04使用设备：“cpu”优化器：“adam”优化器参数：[1x1 rl.option.OptimizerParameters]

或者，创建一个默认选项集，并使用点符号更改某些值。

repOpts=rlRepresentationOptions；repOpts.LearnRate=5e-2；repOpts.GradientThreshold=1

repOpts=rlRepresentationOptions，属性：LearnRate:0.0500 GradientThreshold:1 GradientThresholdMethod:“l2norm”L2调节因子：1.0000e-04使用设备：“cpu”优化器：“adam”优化器参数：[1x1 rl.option.OptimizerParameters]

如果要更改OptimizerParameters选项，使用点符号访问它们。

repOpts.OptimizerParameters.Epsilon = 1 e;repOpts。OptimizerParameters

ans=具有以下属性的优化参数：动量：“不适用”ε：1.0000e-07梯度衰减因子：0.9000平方根梯度衰减因子：0.9990

另见

话题

在R2019a中引入

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

下载电子书

rlRepresentationOptions

描述

创造

语法

描述

性质

学习者—代表的学习率0.01（默认）|正标量

优化器—表示的优化器“亚当”（默认）|“sgdm”|“rmsprop”

OptimizerParameters—优化器的适用参数OptimizerParameters对象

梯度阈值—梯度阈值Inf（默认）|正标量

梯度阈值法—梯度阈值法“l2norm”（默认）|“全局l2norm”|“绝对值”

L2调节因子—因素L2.正规化0.0001（默认）|非负标量

使用设备—训练用计算装置“cpu”（默认）|“gpu”