rlACAgentOptions

AC代理选项

在第页中展开全部

描述

使用rlACAgentOptions对象来指定用于创建演员-评论家（AC）代理的选项。要创建演员-评论家代理，请使用拉卡金特

有关更多信息，请参阅影评经纪人.

有关不同类型的强化学习代理的更多信息，请参阅强化学习代理.

创造

语法

opt=rlACAgentOptions

opt=rlACAgentOptions（名称、值）

描述

选择=rlACAgentOptions为AC代理创建默认选项集。可以使用点表示法修改对象属性。

实例

选择= rlACAgentOptions (名称、值)设置选项属性使用名称-值对。例如rlDQNAgentOptions（'DiscountFactor'，0.95）创建贴现因子为的选项集0.95. 可以指定多个名称-值对。用引号将每个属性名称括起来。

性质

全部展开

`NumStepsToLookAhead`—前面的步骤数
`32`（默认）|正整数

代理从环境中吸取经验之前与环境交互的步骤数，指定为正整数。当代理使用递归神经网络时，NumStepsToLookAhead为训练轨迹长度。

`无熵重量`—熵损失权
`0`（默认）|之间的标量值`0`和`1.`

熵损失权重，指定为介于0和1.。较高的熵损失权重值通过对过于确定要采取的行动施加惩罚来促进代理探索。这样做可以帮助代理脱离局部最优。

当在训练过程中计算梯度时，计算额外的梯度分量以最小化该损失函数。

`利用决定论剥削`—使用具有最大可能性的操作
`错误的`（默认）|`真正的`

选项以模拟和策略生成的最大可能性返回动作，指定为逻辑值。什么时候利用决定论剥削被设置为真正的时，总是使用最大似然的动作模拟和生成策略函数，这会导致代理的行为具有决定性。

什么时候利用决定论剥削被设置为错误的，agent从概率分布中对动作进行采样，从而使agent的行为具有随机性。

`取样时间`—试剂取样时间
`1.`（默认）|正标量

试剂的采样时间，指定为正标量。

在Simulink金宝app中^®环境中，代理将在每个取样时间秒的模拟时间。

在MATLAB^®环境中，每当环境进步时，代理就会被执行。然而,取样时间返回的输出经验中连续元素之间的时间间隔是多少模拟或火车.

`折扣因素`—折现系数
`0.99`（默认）|小于或等于1的正标量

用于培训期间未来奖励的贴现因子，指定为小于或等于1的正标量。

目标函数

拉卡金特 演员-评论家强化学习代理

例子

全部崩溃

创建AC代理选项对象

打开生活的脚本

创建AC代理选项对象，指定折扣系数。

opt=rlACAgentOptions(“折扣演员”,0.95)

opt=rlACAgentOptions，属性：NumStepsToLookAhead:32 EntropyLossWeight:0 UseDeterministic剥削：0采样时间：1折扣因素：0.9500

可以使用点表示法修改选项。例如，将代理采样时间设置为0．5.

opt.SampleTime = 0.5;

兼容性的考虑

全部展开

的默认值`NumStepsToLookAhead`改为32

未来版本中的行为更改

对于大多数环境，此属性的值为32应该比1更好。如果您使用MATLAB R2020b或更高版本，并且希望复制拉卡金特在R2020b之前的版本上，将此值设置为1。

另见

话题

影评经纪人

在R2019a中引入

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

下载电子书

rlACAgentOptions

描述

创造

语法

描述

性质

NumStepsToLookAhead—前面的步骤数32（默认）|正整数

无熵重量—熵损失权0（默认）|之间的标量值0和1.

利用决定论剥削—使用具有最大可能性的操作错误的（默认）|真正的

取样时间—试剂取样时间1.（默认）|正标量

折扣因素—折现系数0.99（默认）|小于或等于1的正标量