文档帮助中心文档
PG代理选项
使用一个rlPGAgentOptions对象指定策略梯度(PG)代理的选项。要创建PG代理,请使用rlPGAgent
rlPGAgentOptions
rlPGAgent
有关PG代理的更多信息,请参见政策梯度代理.
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
选择= rlPGAgentOptions
选择= rlPGAgentOptions(名称、值)
选择=rlPGAgentOptions创建一个rlPGAgentOptions对象,在使用所有默认设置创建PG代理时用作参数。可以使用点表示法修改对象属性。
选择=rlPGAgentOptions
选择
例子
选择=rlPGAgentOptions(名称,值)设置选项性质使用名称-值对。例如,rlPGAgentOptions('DiscountFactor',0.95)创建贴现因子为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。
选择=rlPGAgentOptions(名称,值)
名称,值
rlPGAgentOptions('DiscountFactor',0.95)
0.95
全部展开
使用基线
真正的
假
选择使用基线学习,指定为逻辑值。当使用基线是真正的,则必须指定一个评价网络作为基线函数近似器。
一般来说,对于参与者网络较小的简单问题,PG代理在没有基线的情况下工作得更好。
UseDeterministicExploitation
选项返回操作,最大可能用于模拟和策略生成,指定为逻辑值。当UseDeterministicExploitation被设置为真正的,具有最大可能性的动作通常用于sim卡和generatePolicyFunction,它使代理具有确定性的行为。
sim卡
generatePolicyFunction
当UseDeterministicExploitation被设置为假时,代理从概率分布中抽样行为,使代理表现为随机行为。
SampleTime
1
试剂的采样时间,指定为正标量。
在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。
在MATLAB中®环境中,代理在环境每次前进时都会执行。但是,SampleTime是由返回的输出体验中连续元素之间的时间间隔sim卡或火车.
火车
DiscountFactor
0.99
贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。
EntropyLossWeight
0
熵损失权重,指定为之间的标量值0和1.较高的熵损失权重值会因为太确定该采取哪个行动而受到惩罚,从而促进agent探索。这样做可以帮助代理移出局部优化。
当在训练过程中计算梯度时,将计算额外的梯度分量以使损失函数最小化。
全部折叠
此示例显示如何创建和修改PG代理选项对象。
创建PG代理选项对象,指定折扣系数。
选择= rlPGAgentOptions (“DiscountFactor”, 0.9)
opt = rlPGAgentOptions带有属性:UseBaseline: 1 entropylosweight: 0 UseDeterministicExploitation: 0 SampleTime: 1 DiscountFactor: 0.9000
您可以使用点符号修改选项。例如,将代理示例时间设置为0.5.
0.5
opt.SampleTime = 0.5;
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系