文件帮助中心文件
PG代理选项
用A.rlpgagentoptions.对象以指定策略渐变(PG)代理的选项。创建PG代理,使用rlpgagent.
rlpgagentoptions.
rlpgagent.
有关PG代理商的更多信息,请参阅政策梯度代理人。
有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人。
选择= rlpgagentoptions.
opt = rlpgagentoptions(名称,值)
选择= rlPGAgentOptions创造一个rlpgagentoptions.使用所有默认设置创建PG代理时用作参数的对象。您可以使用点表示法修改对象属性。
选择= rlPGAgentOptions
选择
例子
选择= rlPGAgentOptions (名称,价值的)设置选项属性使用名称值对。例如,rlpgagentoptions('贴花因子',0.95)创建一个选项设置,折扣系数0.95。您可以指定多个名称值对。将每个属性名称括起引号。
选择= rlPGAgentOptions (名称,价值的)
名称,价值
rlpgagentoptions('贴花因子',0.95)
0.95
展开全部
UseBaseline
真的
错误的
使用基线进行学习的选项,指定为逻辑值。什么时候UseBaseline是真的,必须将批评网络指定为基线函数近似器。
通常,为了更简单地存在较小的演员网络,PG代理没有基线就好工作。
Usedeterministicexploitation.
选项以模拟和策略生成的最大可能性返回动作,指定为逻辑值。什么时候Usedeterministicexploitation.被设定为真的时,总是使用最大似然的动作SIM和生成policyfunction.,这导致代理人的行为确定。
SIM
生成policyfunction.
什么时候Usedeterministicexploitation.被设定为错误的,代理示例从概率分布的动作,这导致代理随机行事。
采样时间
1
代理的采样时间,指定为正标量。
在一个simuli金宝appnk中®环境,代理人每次执行采样时间模拟时间秒。
在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,采样时间返回的输出经验中连续元素之间的时间间隔是多少SIM或火车。
火车
贴纸物
0.99
折扣系数适用于培训期间未来奖励,指定为小于或等于1的正标量。
Entropylossweight.
0.
熵损失重量,指定为标量值0.和1。更高的熵损失重量值通过对其太肯定采取的行动施加罚款来促进代理商探索。这样做可以帮助代理人退出本地Optima。
当在训练期间计算梯度时,计算额外的梯度分量以最小化该损失函数。
全部收缩
此示例显示如何创建和修改PG代理选项对象。
创建PG代理选项对象,指定折扣因子。
opt = rlpgagentoptions('贴花因子',0.9)
opt =具有属性的rlpgagentoptions:Usembaseline:1 Entropylossweight:0 Usedeterministicexploitation:0 Sampletime:1折扣物:0.9000
您可以使用点表示法修改选项。例如,将代理采样时间设置为0.5。
0.5
opt.sampletime = 0.5;
このこの例の変更されたれたありののをさたのののをききますかかたきます
次のMATLABコマンドに対応するリンクがクリックされました。
コマンドをmatlabコマンドウィンドウににに力
选择一个网站,以便在可用的地方进行翻译内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获得最佳网站性能。其他MathWorks国家网站未优化您所在地的访问。
联系您当地的办公室