文档帮助中心文档
NumStepsToLookAhead
AC代理人的选项
使用一个rlacagentoptions.对象指定用于创建actor-critic (AC)代理的选项。要创建演员-评论家代理,请使用rlACAgent
rlacagentoptions.
rlACAgent
有关更多信息,请参见Actor-Critic代理.
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
选择= rlACAgentOptions
选择= rlACAgentOptions(名称、值)
选择= rlACAgentOptions为AC代理创建默认选项集。可以使用点表示法修改对象属性。
选择
例子
选择= rlacagentoptions(名称,值)设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建一个选项设置,折扣系数0.95.可以指定多个名称-值对。将每个属性名用引号括起来。
选择= rlacagentoptions(名称,值)
名称,值
rlDQNAgentOptions (DiscountFactor, 0.95)
0.95
全部展开
32
代理在从其体验中与环境进行交互的步数,指定为正整数。当代理使用经常性神经网络时,NumStepsToLookAhead被视为训练轨迹长度。
EntropyLossWeight
0
1
熵损失权重,指定为之间的标量值0和1.较高的减重值会因过于确定该采取何种行动而受到惩罚,从而促进代理人探索。这样做可以帮助代理移出局部优化。
对于剧集步骤t,则熵损失函数为:
H t = E ∑ k = 1 米 μ. k ( 年代 t | θ. μ. ) ln μ. k ( 年代 t | θ. μ. )
在这里:
E是熵损失的重量。
米是可能的行动的数量。
μ.k(年代t|θ.μ.)是采取行动的概率一个k在国家年代t在目前的政策之后。
当在训练过程中计算梯度时,将计算额外的梯度分量以使损失函数最小化。
UseDeterministicExploitation
假
真实
选项以返回最大可能性用于模拟和策略生成的最大可能性,指定为逻辑值。当UseDeterministicExploitation设置为真实,始终使用最大可能性的动作sim卡和generatePolicyFunction,镇静代理人的表现形式。
sim卡
generatePolicyFunction
当UseDeterministicExploitation设置为假时,代理从概率分布中抽样行为,使代理表现为随机行为。
SampleTime
代理的采样时间,指定为正标量。
在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。
在Matlab中®环境,代理每次环境进步时都会执行。但是,SampleTime是输出体验中连续元素之间的时间间隔sim卡或者火车.
火车
DiscountFactor
0.99
贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。
全部折叠
创建一个AC代理选项对象,指定折扣因子。
选择= rlACAgentOptions (“DiscountFactor”, 0.95)
opt = rlACAgentOptions with properties: NumStepsToLookAhead: 32 entropylosweight: 0 UseDeterministicExploitation: 0 SampleTime: 1 DiscountFactor: 0.9500
您可以使用点符号修改选项。例如,将代理示例时间设置为0.5.
0.5
opt.sampletime = 0.5;
未来版本中的行为改变
对于大多数环境,该属性的值为32应该比1工作得更好。如果你有MATLAB R2020b或更高版本,你想重现如何rlACAgent在R2020b之前的版本上的行为,将该值设置为1。
您已经有了abgeänderte版本死亡Beispiels。Möchten您是谁? Änderungen öffnen?
您有一个连接到MATLAB-Befehl entspricht:
Führen Sie den Befehl durch Eingabe in das MATLAB-Befehlsfenster aus。Webbrowser unterstützen keine MATLAB-Befehle。
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系