主要内容

rlACAgentOptions

AC代理选项

描述

使用一个rlACAgentOptions对象指定用于创建actor-critic (AC)代理的选项。要创建演员-评论家代理,请使用rlACAgent

有关更多信息,请参见Actor-Critic代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择= rlACAgentOptions为AC代理创建默认选项集。可以使用点表示法修改对象属性。

例子

选择= rlACAgentOptions (名称,值设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

代理从环境中吸取经验之前与环境交互的步骤数,指定为正整数。当代理使用递归神经网络时,NumStepsToLookAhead为训练轨迹长度。

熵损失权重,指定为之间的标量值01.较高的熵损失权重值会因为太确定该采取哪个行动而受到惩罚,从而促进agent探索。这样做可以帮助代理移出局部优化。

当在训练过程中计算梯度时,将计算额外的梯度分量以使损失函数最小化。

选项以模拟和策略生成的最大可能性返回动作,指定为逻辑值。当UseDeterministicExploitation被设置为真正的时,总是使用最大似然的动作sim卡generatePolicyFunction,它使代理具有确定性的行为。

UseDeterministicExploitation被设置为时,代理从概率分布中抽样行为,使代理表现为随机行为。

试剂的采样时间,指定为正标量。

在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。

在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡火车

贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。

对象的功能

rlACAgent 行动者-批评家强化学习代理

例子

全部折叠

创建一个AC代理选项对象,指定折扣因子。

选择= rlACAgentOptions (“DiscountFactor”, 0.95)
opt = rlACAgentOptions with properties: NumStepsToLookAhead: 32 entropylosweight: 0 UseDeterministicExploitation: 0 SampleTime: 1 DiscountFactor: 0.9500

您可以使用点符号修改选项。例如,将代理示例时间设置为0.5

opt.SampleTime = 0.5;

兼容性的考虑

全部展开

未来版本中的行为改变

另请参阅

介绍了R2019a