主要内容

rlPGAgentOptions

PG代理选项

描述

使用一个rlPGAgentOptions对象指定策略梯度(PG)代理的选项。要创建PG代理,请使用rlPGAgent

有关PG代理的更多信息,请参见政策梯度代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择=rlPGAgentOptions创建一个rlPGAgentOptions对象,在使用所有默认设置创建PG代理时用作参数。可以使用点表示法修改对象属性。

例子

选择=rlPGAgentOptions(名称,值设置选项性质使用名称-值对。例如,rlPGAgentOptions('DiscountFactor',0.95)创建贴现因子为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

选择使用基线学习,指定为逻辑值。当使用基线真正的,则必须指定一个评价网络作为基线函数近似器。

一般来说,对于参与者网络较小的简单问题,PG代理在没有基线的情况下工作得更好。

选项返回操作,最大可能用于模拟和策略生成,指定为逻辑值。当UseDeterministicExploitation被设置为真正的,具有最大可能性的动作通常用于sim卡generatePolicyFunction,它使代理具有确定性的行为。

UseDeterministicExploitation被设置为时,代理从概率分布中抽样行为,使代理表现为随机行为。

试剂的采样时间,指定为正标量。

在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。

在MATLAB中®环境中,代理在环境每次前进时都会执行。但是,SampleTime是由返回的输出体验中连续元素之间的时间间隔sim卡火车

贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。

熵损失权重,指定为之间的标量值01.较高的熵损失权重值会因为太确定该采取哪个行动而受到惩罚,从而促进agent探索。这样做可以帮助代理移出局部优化。

当在训练过程中计算梯度时,将计算额外的梯度分量以使损失函数最小化。

对象的功能

rlPGAgent 策略梯度强化学习代理

例子

全部折叠

此示例显示如何创建和修改PG代理选项对象。

创建PG代理选项对象,指定折扣系数。

选择= rlPGAgentOptions (“DiscountFactor”, 0.9)
opt = rlPGAgentOptions带有属性:UseBaseline: 1 entropylosweight: 0 UseDeterministicExploitation: 0 SampleTime: 1 DiscountFactor: 0.9000

您可以使用点符号修改选项。例如,将代理示例时间设置为0.5

opt.SampleTime = 0.5;

另请参阅

介绍了R2019a