文档帮助中心文档
NumStepsToLookAhead
AC代理选项
使用rlACAgentOptions对象来指定用于创建演员-评论家(AC)代理的选项。要创建演员-评论家代理,请使用拉卡金特
rlACAgentOptions
拉卡金特
有关更多信息,请参阅影评经纪人.
有关不同类型的强化学习代理的更多信息,请参阅强化学习代理.
opt=rlACAgentOptions
opt=rlACAgentOptions(名称、值)
选择=rlACAgentOptions为AC代理创建默认选项集。可以使用点表示法修改对象属性。
选择=rlACAgentOptions
选择
实例
选择= rlACAgentOptions (名称、值)设置选项属性使用名称-值对。例如rlDQNAgentOptions('DiscountFactor',0.95)创建贴现因子为的选项集0.95. 可以指定多个名称-值对。用引号将每个属性名称括起来。
选择= rlACAgentOptions (名称、值)
名称、值
rlDQNAgentOptions('DiscountFactor',0.95)
0.95
全部展开
32
代理从环境中吸取经验之前与环境交互的步骤数,指定为正整数。当代理使用递归神经网络时,NumStepsToLookAhead为训练轨迹长度。
无熵重量
0
1.
熵损失权重,指定为介于0和1.。较高的熵损失权重值通过对过于确定要采取的行动施加惩罚来促进代理探索。这样做可以帮助代理脱离局部最优。
当在训练过程中计算梯度时,计算额外的梯度分量以最小化该损失函数。
利用决定论剥削
错误的
真正的
选项以模拟和策略生成的最大可能性返回动作,指定为逻辑值。什么时候利用决定论剥削被设置为真正的时,总是使用最大似然的动作模拟和生成策略函数,这会导致代理的行为具有决定性。
模拟
生成策略函数
什么时候利用决定论剥削被设置为错误的,agent从概率分布中对动作进行采样,从而使agent的行为具有随机性。
取样时间
试剂的采样时间,指定为正标量。
在Simulink金宝app中®环境中,代理将在每个取样时间秒的模拟时间。
在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,取样时间返回的输出经验中连续元素之间的时间间隔是多少模拟或火车.
火车
折扣因素
0.99
用于培训期间未来奖励的贴现因子,指定为小于或等于1的正标量。
全部崩溃
创建AC代理选项对象,指定折扣系数。
opt=rlACAgentOptions(“折扣演员”,0.95)
opt=rlACAgentOptions,属性:NumStepsToLookAhead:32 EntropyLossWeight:0 UseDeterministic剥削:0采样时间:1折扣因素:0.9500
可以使用点表示法修改选项。例如,将代理采样时间设置为0.5.
0.5
opt.SampleTime = 0.5;
未来版本中的行为更改
对于大多数环境,此属性的值为32应该比1更好。如果您使用MATLAB R2020b或更高版本,并且希望复制拉卡金特在R2020b之前的版本上,将此值设置为1。
这是一个版本的修改。是否需要在星期二进行修改?
Hai fatto clic su un collegamento che corto comando MATLAB:
在MATLAB的comando-inserendolo-nella finestra公司。我浏览网页,不支持我的comandi MATLAB。金宝app
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系当地办事处