rlACAgentOptions

AC剂的选择

展开全部页面

描述

使用一个rlACAgentOptions对象指定用于创建actor-批评家(AC)代理的选项。若要创建参与者-评论家代理，请使用rlACAgent

有关更多信息，请参阅Actor-Critic代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

opt = rlACAgentOptions

opt = rlACAgentOptions(名称，值)

描述

选择= rlACAgentOptions为AC代理创建默认选项集。可以使用点表示法修改对象属性。

例子

选择= rlACAgentOptions (名称,值）设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`NumStepsToLookAhead`- - - - - -前进的步骤数
`32`(默认)|正整数

代理从其经验中学习之前与环境交互的步数，指定为正整数。当智能体使用循环神经网络时，NumStepsToLookAhead作为训练轨迹长度。

`EntropyLossWeight`- - - - - -熵损失重量
`0`(默认)|之间的标量值`0`而且`1`

熵损失权重，指定为之间的标量值0而且1．较高的熵损失权重值通过对过于确定要采取的行动施加惩罚来促进智能体的探索。这样做可以帮助代理移出局部最优。

当在训练过程中计算梯度时，计算一个额外的梯度分量以最小化这个损失函数。

`ActorOptimizerOptions`- - - - - -角色优化器选项
`rlOptimizerOptions`对象

对象优化器选项，指定为rlOptimizerOptions对象。它允许您指定角色逼近器的训练参数，如学习率、梯度阈值，以及优化器算法及其参数。有关更多信息，请参见rlOptimizerOptions而且rlOptimizer．

`CriticOptimizerOptions`- - - - - -评论家优化选项
`rlOptimizerOptions`对象

评论家优化器选项，指定为rlOptimizerOptions对象。它允许您指定临界逼近器的训练参数，如学习率，梯度阈值，以及优化器算法及其参数。有关更多信息，请参见rlOptimizerOptions而且rlOptimizer．

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量|`－1`

试剂的取样时间，指定为正标量或－1．将此参数设置为－1允许基于事件的模拟。

在Simulink金宝app中^®环境中,RL代理块，在其中指定代理执行每个SampleTime秒模拟时间。如果SampleTime是－1，块从它的父子系统继承采样时间。

在MATLAB中^®环境时，每当环境前进时执行代理。在这种情况下，SampleTime输出经验中连续元素之间的时间间隔是否由返回sim卡或火车．如果SampleTime是－1，返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时间。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

折扣因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlACAgent 演员-评论家强化学习代理

例子

全部折叠

创建AC Agent Options对象

打开实时脚本

创建AC代理选项对象，指定折扣因子。

opt = rlACAgentOptions(“DiscountFactor”, 0.95)

opt = rlACAgentOptions with properties: NumStepsToLookAhead: 32 EntropyLossWeight: 0 ActorOptimizerOptions: [1x1 rl.option. option.]rlOptimizerOptions] CriticOptimizerOptions: [1x1 rl.option. option.]rlOptimizerOptions] SampleTime: 1 DiscountFactor: 0.9500 InfoToSave: [1x1 struct]

可以使用点表示法修改选项。例如，设置代理采样时间为0．5．

opt.SampleTime = 0.5;

版本历史

在R2019a中引入

全部展开

R2022a:仿真与部署:`UseDeterministicExploitation`将被移除

房地产UseDeterministicExploitation的rlACAgentOptions对象将在将来的版本中删除。使用UseExplorationPolicy的属性rlACAgent代替。

之前，你设置了UseDeterministicExploitation如下。

强制代理总是选择具有最大可能性的操作，从而使用贪婪确定性策略进行模拟和部署。
```
agent.AgentOptions.UseDeterministicExploitation = true;
```
允许智能体通过采样其概率分布来选择其行为，以进行模拟和策略部署，从而使用探索观察空间的随机策略。
```
agent.AgentOptions.UseDeterministicExploitation = false;
```

从R2022a开始，设置UseExplorationPolicy如下。

强制代理总是选择具有最大可能性的操作，从而使用贪婪确定性策略进行模拟和部署。
```
代理。UseExplorationPolicy = false;
```
允许智能体通过采样其概率分布来选择其行为，以进行模拟和策略部署，从而使用探索观察空间的随机策略。
```
代理。UseExplorationPolicy = true;
```

类似于UseDeterministicExploitation,UseExplorationPolicy仅影响模拟和部署;这不会影响训练。

R2020b:的默认值`NumStepsToLookAhead`改为32

对于大多数环境，该属性的值为32应该比1更好。如果你有MATLAB R2020b或更高版本，你想重现如何rlACAgent在R2020b之前的版本上，将此值设置为1。

另请参阅

主题

Actor-Critic代理

rlACAgentOptions

描述

创建

语法

描述

属性

NumStepsToLookAhead- - - - - -前进的步骤数32(默认)|正整数

EntropyLossWeight- - - - - -熵损失重量0(默认)|之间的标量值0而且1

ActorOptimizerOptions- - - - - -角色优化器选项rlOptimizerOptions对象

CriticOptimizerOptions- - - - - -评论家优化选项rlOptimizerOptions对象

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量|－1

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量