rlacagentoptions.

AC代理人的选项

全部展开页面

描述

使用一个rlacagentoptions.对象指定用于创建actor-critic (AC)代理的选项。要创建演员-评论家代理，请使用rlACAgent

有关更多信息，请参见Actor-Critic代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlACAgentOptions

选择= rlACAgentOptions(名称、值)

描述

选择= rlACAgentOptions为AC代理创建默认选项集。可以使用点表示法修改对象属性。

例子

选择= rlacagentoptions（名称,值）设置选项属性使用名称-值对。例如,rlDQNAgentOptions (DiscountFactor, 0.95)创建一个选项设置，折扣系数0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`NumStepsToLookAhead`- - - - - -前面的步数
`32`(默认)|正整数

代理在从其体验中与环境进行交互的步数，指定为正整数。当代理使用经常性神经网络时，NumStepsToLookAhead被视为训练轨迹长度。

`EntropyLossWeight`- - - - - -熵减肥
`0`(默认)|标量值之间`0`和`1`

熵损失权重，指定为之间的标量值0和1．较高的减重值会因过于确定该采取何种行动而受到惩罚，从而促进代理人探索。这样做可以帮助代理移出局部优化。

对于剧集步骤t，则熵损失函数为:

$H_{t} ＝ E \sum_{k ＝ 1}^{米} {μ.}_{k} （ {年代}_{t} | {θ.}_{μ.} ） \ln {μ.}_{k} （ {年代}_{t} | {θ.}_{μ.} ）$

在这里:

E是熵损失的重量。
米是可能的行动的数量。
μ._k（年代_t|θ._μ.)是采取行动的概率一个_k在国家年代_t在目前的政策之后。

当在训练过程中计算梯度时，将计算额外的梯度分量以使损失函数最小化。

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真实`

选项以返回最大可能性用于模拟和策略生成的最大可能性，指定为逻辑值。当UseDeterministicExploitation设置为真实，始终使用最大可能性的动作sim卡和generatePolicyFunction，镇静代理人的表现形式。

当UseDeterministicExploitation设置为假时，代理从概率分布中抽样行为，使代理表现为随机行为。

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

代理的采样时间，指定为正标量。

在一个模型金宝app^®环境中，代理被执行SampleTime模拟时间的秒数。

在Matlab中^®环境，代理每次环境进步时都会执行。但是，SampleTime是输出体验中连续元素之间的时间间隔sim卡或者火车．

`DiscountFactor`- - - - - -折扣系数
`0.99`(默认)|小于等于1的正标量

贴现因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlACAgent 行动者-批评家强化学习代理

例子

全部折叠

创建AC代理选项对象

打开直播脚本

创建一个AC代理选项对象，指定折扣因子。

选择= rlACAgentOptions (“DiscountFactor”, 0.95)

opt = rlACAgentOptions with properties: NumStepsToLookAhead: 32 entropylosweight: 0 UseDeterministicExploitation: 0 SampleTime: 1 DiscountFactor: 0.9500

您可以使用点符号修改选项。例如，将代理示例时间设置为0.5．

opt.sampletime = 0.5;

兼容性考虑因素

全部展开

默认值为`NumStepsToLookAhead`更改为32

未来版本中的行为改变

对于大多数环境，该属性的值为32应该比1工作得更好。如果你有MATLAB R2020b或更高版本，你想重现如何rlACAgent在R2020b之前的版本上的行为，将该值设置为1。

另请参阅

主题

Actor-Critic代理

介绍了R2019a

rlacagentoptions.

描述

创建

语法

描述

属性

`NumStepsToLookAhead`- - - - - -前面的步数
`32`(默认)|正整数

`EntropyLossWeight`- - - - - -熵减肥
`0`(默认)|标量值之间`0`和`1`

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真实`

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折扣系数
`0.99`(默认)|小于等于1的正标量

对象的功能

例子

创建AC代理选项对象

兼容性考虑因素

默认值为`NumStepsToLookAhead`更改为32

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

rlacagentoptions.

描述

创建

语法

描述

属性

NumStepsToLookAhead- - - - - -前面的步数32(默认)|正整数

EntropyLossWeight- - - - - -熵减肥0(默认)|标量值之间0和1

UseDeterministicExploitation- - - - - -使用最大可能性的动作假(默认)|真实

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量

DiscountFactor- - - - - -折扣系数0.99(默认)|小于等于1的正标量

对象的功能

例子

创建AC代理选项对象

兼容性考虑因素

默认值为NumStepsToLookAhead更改为32

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

`NumStepsToLookAhead`- - - - - -前面的步数
`32`(默认)|正整数

`EntropyLossWeight`- - - - - -熵减肥
`0`(默认)|标量值之间`0`和`1`

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真实`

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折扣系数
`0.99`(默认)|小于等于1的正标量

默认值为`NumStepsToLookAhead`更改为32