rlPGAgentOptions

PG代理选项

全部展开页面

描述

使用一个rlPGAgentOptions对象指定策略梯度(PG)代理的选项。要创建PG代理，请使用rlPGAgent

有关PG代理的更多信息，请参见政策梯度代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlPGAgentOptions

选择= rlPGAgentOptions(名称、值)

描述

选择=rlPGAgentOptions创建一个rlPGAgentOptions对象，在使用所有默认设置创建PG代理时用作参数。可以使用点表示法修改对象属性。

例子

选择=rlPGAgentOptions(名称,值）设置选项性质使用名称-值对。例如,rlPGAgentOptions（'DiscountFactor'，0.95）创建贴现因子为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`使用基线`- - - - - -使用基线进行学习
`真正的`(默认)|`假`

选择使用基线学习，指定为逻辑值。当使用基线是真正的，则必须指定一个评价网络作为基线函数近似器。

一般来说，对于参与者网络较小的简单问题，PG代理在没有基线的情况下工作得更好。

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真正的`

选项返回操作，最大可能用于模拟和策略生成，指定为逻辑值。当UseDeterministicExploitation被设置为真正的，具有最大可能性的动作通常用于sim卡和generatePolicyFunction，它使代理具有确定性的行为。

当UseDeterministicExploitation被设置为假时，代理从概率分布中抽样行为，使代理表现为随机行为。

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

试剂的采样时间，指定为正标量。

在一个模型金宝app^®环境中，代理被执行SampleTime模拟时间的秒数。

在MATLAB中^®环境中，代理在环境每次前进时都会执行。但是，SampleTime是由返回的输出体验中连续元素之间的时间间隔sim卡或火车．

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

贴现因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

`EntropyLossWeight`- - - - - -熵减肥
`0`(默认)|标量值之间`0`和`1`

熵损失权重，指定为之间的标量值0和1．较高的熵损失权重值会因为太确定该采取哪个行动而受到惩罚，从而促进agent探索。这样做可以帮助代理移出局部优化。

当在训练过程中计算梯度时，将计算额外的梯度分量以使损失函数最小化。

对象的功能

rlPGAgent 策略梯度强化学习代理

例子

全部折叠

创建PG代理选项对象

打开生活的脚本

此示例显示如何创建和修改PG代理选项对象。

创建PG代理选项对象，指定折扣系数。

选择= rlPGAgentOptions (“DiscountFactor”, 0.9)

opt = rlPGAgentOptions带有属性:UseBaseline: 1 entropylosweight: 0 UseDeterministicExploitation: 0 SampleTime: 1 DiscountFactor: 0.9000

您可以使用点符号修改选项。例如，将代理示例时间设置为0.5．

opt.SampleTime = 0.5;

另请参阅

主题

政策梯度代理

介绍了R2019a

rlPGAgentOptions

描述

创建

语法

描述

属性

`使用基线`- - - - - -使用基线进行学习
`真正的`(默认)|`假`

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真正的`

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

`EntropyLossWeight`- - - - - -熵减肥
`0`(默认)|标量值之间`0`和`1`

对象的功能

例子

创建PG代理选项对象

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

rlPGAgentOptions

描述

创建

语法

描述

属性

使用基线- - - - - -使用基线进行学习真正的(默认)|假

UseDeterministicExploitation- - - - - -使用最大可能性的动作假(默认)|真正的

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量

EntropyLossWeight- - - - - -熵减肥0(默认)|标量值之间0和1

对象的功能

例子

创建PG代理选项对象

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

`使用基线`- - - - - -使用基线进行学习
`真正的`(默认)|`假`

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真正的`

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

`EntropyLossWeight`- - - - - -熵减肥
`0`(默认)|标量值之间`0`和`1`