rlACAgentOptions

AC代理选择

展开所有页面

描述

用A.rlACAgentOptions对象指定创建演员 - 评论家（AC）代理的选项。创建演员 - 批评者，使用rlacagent.

有关更多信息，请参阅演员批评者。

有关不同类型的强化学习代理商的更多信息，请参阅加固学习代理人。

创建

句法

选择= rlacagentoptions.

opt = rlacagentoptions（名称，值）

描述

选择= rlacagentoptions.为AC代理创建一个默认选项。您可以使用点表示法修改对象属性。

例子

选择= rlACAgentOptions (名称，价值）设置选项属性使用名称值对。例如，RLDQNAGENTOPTIONS（'贴花因子'，0.95）创建折扣系数为的选项集0.95。您可以指定多个名称值对。将每个属性名称括在引号中。

特性

展开全部

`numstepstolookahead.`-未来的步数
`32.`（默认）|正整数

代理在从环境中学习经验之前与环境交互的步骤数，指定为一个正整数。当agent使用递归神经网络时，numstepstolookahead.为训练轨迹长度。

`Entropylossweight.`-熵损失重量
`0.`（默认）|标量值`0.`和`1`

熵损失重量，指定为标量值0.和1。较高的损失重量值通过对太肯定采取的行动施加罚款来促进代理商探索。这样做可以帮助代理人迁出当地的Optima。

集步骤T.，熵丢失函数，被添加到演员更新的丢失函数，是：

$H_{T.} = E. {σ.}_{K. = 1}^{m} μ_{K.} （ {S.}_{T.} | θ_{μ} ） LN. μ_{K.} （ {S.}_{T.} | θ_{μ} ）$

这里：

E.是熵损失的重量。
m是可能的行动的数量。
μ_K.（S._T.|θ_μ）是采取行动的可能性一种_K.在状态时S._T.遵循现行政策。

当在训练期间计算梯度时，计算额外的梯度分量以最小化该损失函数。

`Usedeterministicexploitation.`-使用最大可能性的动作
`错误的`（默认）|`真正的`

选项，以指定为逻辑值的方式返回模拟和策略生成的最大可能性操作。什么时候Usedeterministicexploitation.被设置为真正的，可能性最大的动作总是用在SIM和生成policyfunction.，使代理的行为具有确定性。

什么时候Usedeterministicexploitation.被设置为错误的，代理示例了从概率分布的动作，这导致代理随机行事。

`采样时间`-代理的采样时间
`1`（默认）|正标量

试剂的采样时间，以正标量表示。

在Simulink金宝app中^®环境，代理商每次执行采样时间模拟时间秒。

在MATLAB^®环境，每当环境进步时，代理就会执行。然而,采样时间输出经验中连续元素之间的时间间隔是否由SIM或火车。

`贴纸物`-折现系数
`0.99`（默认）|正标量小于或等于1

在培训期间应用于未来奖励的折扣因素，指定为小于或等于1的正标量。

对象功能

rlacagent. 演员 - 评论家强化学习代理

例子

全部收缩

创建AC代理选项对象

打开生活的脚本

创建AC代理选项对象，指定折扣系数。

opt = rlacagentoptions（'贴花因子'，0.95）

opt =具有属性的rlacagentoptions：numstepstolookahead：32 entropylosswight：0 udedeterministicexploitation：0 Sampletime：1折扣摩擦：0.9500

您可以使用点表示法修改选项。例如，将代理采样时间设置为0．5。

opt.SampleTime = 0.5;

兼容性的考虑

展开全部

默认值`numstepstolookahead.`改为32.

未来发布的行为变化

对于大多数环境，此属性的值应优于1优于1。如果您找到了Matlab R2020B或更高版本，并且您想要重现如何rlacagent.在R2020B之前的版本上表现，将此值设置为1。

也可以看看

话题

演员批评者

在R2019A介绍

rlACAgentOptions

描述

创建

句法

描述

特性

`numstepstolookahead.`-未来的步数
`32.`（默认）|正整数

`Entropylossweight.`-熵损失重量
`0.`（默认）|标量值`0.`和`1`

`Usedeterministicexploitation.`-使用最大可能性的动作
`错误的`（默认）|`真正的`

`采样时间`-代理的采样时间
`1`（默认）|正标量

`贴纸物`-折现系数
`0.99`（默认）|正标量小于或等于1

对象功能

例子

创建AC代理选项对象

兼容性的考虑

默认值`numstepstolookahead.`改为32.

也可以看看

话题

强化学习工具箱文档

金宝app

用Matlab和Simulink加强学习金宝app

rlACAgentOptions

描述

创建

句法

描述

特性

numstepstolookahead.-未来的步数32.（默认）|正整数

Entropylossweight.-熵损失重量0.（默认）|标量值0.和1

Usedeterministicexploitation.-使用最大可能性的动作错误的（默认）|真正的

采样时间-代理的采样时间1（默认）|正标量

贴纸物-折现系数0.99（默认）|正标量小于或等于1

对象功能

例子

创建AC代理选项对象

兼容性的考虑

默认值numstepstolookahead.改为32.

也可以看看

话题

强化学习工具箱文档

金宝app

用Matlab和Simulink加强学习金宝app

`numstepstolookahead.`-未来的步数
`32.`（默认）|正整数

`Entropylossweight.`-熵损失重量
`0.`（默认）|标量值`0.`和`1`

`Usedeterministicexploitation.`-使用最大可能性的动作
`错误的`（默认）|`真正的`

`采样时间`-代理的采样时间
`1`（默认）|正标量

`贴纸物`-折现系数
`0.99`（默认）|正标量小于或等于1

默认值`numstepstolookahead.`改为32.