rlTRPOAgentOptions

TRPO代理的选择

全部展开页面

描述

使用一个rlTRPOAgentOptions对象指定信任区域策略优化(TRPO)代理的选项。要创建TRPO代理，请使用rlTRPOAgent．

有关TRPO代理的更多信息，请参见信任区域策略优化代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlTRPOAgentOptions

选择= rlTRPOAgentOptions(名称、值)

描述

选择= rlTRPOAgentOptions创建一个rlPPOAgentOptions对象，在使用所有默认设置创建TRPO代理时用作参数。可以使用点表示法修改对象属性。

例子

选择= rlTRPOAgentOptions (名称,值）设置选项属性使用名称-值参数。例如,rlTRPOAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．您可以指定多个名称-值参数。将每个属性名用引号括起来。

属性

全部展开

`ExperienceHorizon`- - - - - -学习前agent与环境交互的步骤数
`512`(默认)|正整数

代理从环境中吸取经验之前与环境交互的步骤数，指定为正整数。

的ExperienceHorizon值必须大于或等于MiniBatchSize价值。

`MiniBatchSize`- - - - - -Mini-batch大小
`128`(默认)|正整数

用于每个学习时期的小批量大小，指定为正整数。当代理使用递归神经网络时，MiniBatchSize为训练轨迹长度。

的MiniBatchSize值必须小于或等于ExperienceHorizon价值。

`EntropyLossWeight`- - - - - -熵减肥
`０．０１`(默认)|标量值之间`0`和`1`

熵损失权重，指定为之间的标量值0和1．较高的熵损失权重值会因为太确定该采取哪个行动而受到惩罚，从而促进agent探索。这样做可以帮助代理移出局部优化。

当在训练过程中计算梯度时，将计算额外的梯度分量以最小化熵损失。有关更多信息，请参见熵损失．

`NumEpoch`- - - - - -数量的时代
`1`(默认)|正整数

行动者和评论家网络从当前经验集中学到的时代的数量，指定为正整数。

`AdvantageEstimateMethod`- - - - - -估算优势值的方法
`“gae”`(默认)|`“finite-horizon”`

评估优势值的方法，具体为:

“gae”-广义优势估计
“finite-horizon”-有限地平估计

有关这些方法的更多信息，请参阅近端政策优化代理．

`GAEFactor`- - - - - -广义优势估计的平滑因子
`0.95`(默认)|标量值之间`0`和`1`

广义优势估计的平滑因子，指定为之间的标量值0和1、包容。此选项仅适用于AdvantageEstimateMethod选择是“gae”

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真正的`

选项以模拟和策略生成的最大可能性返回动作，指定为逻辑值。当UseDeterministicExploitation被设置为真正的时，总是使用最大似然的动作sim卡和generatePolicyFunction，它使代理具有确定性的行为。

当UseDeterministicExploitation被设置为假时，代理从概率分布中抽样行为，使代理表现为随机行为。

`KLDivergenceLimit`- - - - - -KL散度的上限
`０．０１`(默认)|积极的标量

旧策略和当前策略之间的Kullback-Leibler (KL)散度的上限，指定为一个正标量。

`NumIterationsConjugateGradient`- - - - - -共轭梯度象限的最大迭代次数
`10`(默认)|正整数

共轭梯度象限的最大迭代次数，指定为正整数。

`ConjugateGradientDamping`- - - - - -共轭梯度阻尼系数
`1的军医`(默认)|负的标量

数值稳定性的共轭梯度阻尼因子，指定为非负标量。

`ConjugateGradientResidualTolerance`- - - - - -共轭梯度剩余容限因子
`1 e-8`(默认)|积极的标量

共轭梯度残余公差，指定为正标量。一旦共轭梯度算法的残差低于这个公差，算法就停止。

通常，默认值在大多数情况下都能很好地工作。

`NumIterationsLineSearch`- - - - - -线搜索的迭代次数
`10`(默认)|正整数

行搜索的迭代次数，指定为正整数。

通常，默认值在大多数情况下都能很好地工作。

`NormalizedAdvantageMethod`- - - - - -优势函数的归一化方法
`“没有”`(默认)|`“当前`|`“移动”`

优势函数值的归一化方法，具体为:

“没有”-不要使优势价值正常化
“当前”-使用当前小批经验的平均值和标准偏差对优势函数进行归一化。
“移动”-使用最近经历的移动窗口的平均值和标准偏差对优势函数进行归一化。要指定窗口大小，请设置AdvantageNormalizingWindow选择。

在某些环境中，可以通过在训练过程中对优势函数进行归一化来提高agent的性能。代理对优势函数进行归一化，方法是减去平均优势值并按标准偏差进行缩放。

`AdvantageNormalizingWindow`- - - - - -归一化优势函数的窗口大小
`1 e6`(默认)|正整数

归一化优势函数值的窗口大小，指定为正整数。使用此选项时NormalizedAdvantageMethod选择是“移动”．

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

试剂的采样时间，指定为正标量。

在一个模型金宝app^®环境中，代理被执行SampleTime模拟时间的秒数。

在MATLAB^®环境中，每当环境进步时，代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡或火车．

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

贴现因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlTRPOAgent 信任域策略优化强化学习代理

例子

全部折叠

创建TRPO代理选项对象

打开生活的脚本

创建一个TRPO代理选项对象，指定折扣因子。

选择= rlTRPOAgentOptions (“DiscountFactor”, 0.9)

选择= rlTRPOAgentOptions属性:ExperienceHorizon: 512 MiniBatchSize: 128 EntropyLossWeight: 0.0100 NumEpoch: 1 AdvantageEstimateMethod:“gae”GAEFactor: 0.9500 UseDeterministicExploitation: 0 ConjugateGradientDamping: 1.0000 e-04 KLDivergenceLimit: 0.0100 NumIterationsConjugateGradient: 10 NumIterationsLineSearch:10 ConjugateGradientResidualTolerance: 1.0000e-08 NormalizedAdvantageMethod: "none" advantagnormalizingwindow: 1000000 SampleTime: 1 DiscountFactor: 0.9000

您可以使用点符号修改选项。例如，将代理示例时间设置为０.１．

opt.SampleTime = 0.1;

另请参阅

主题

信任区域策略优化代理

介绍了R2021b

rlTRPOAgentOptions

描述

创建

语法

描述

属性

`ExperienceHorizon`- - - - - -学习前agent与环境交互的步骤数
`512`(默认)|正整数

`MiniBatchSize`- - - - - -Mini-batch大小
`128`(默认)|正整数

`EntropyLossWeight`- - - - - -熵减肥
`０．０１`(默认)|标量值之间`0`和`1`

`NumEpoch`- - - - - -数量的时代
`1`(默认)|正整数

`AdvantageEstimateMethod`- - - - - -估算优势值的方法
`“gae”`(默认)|`“finite-horizon”`

`GAEFactor`- - - - - -广义优势估计的平滑因子
`0.95`(默认)|标量值之间`0`和`1`

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真正的`

`KLDivergenceLimit`- - - - - -KL散度的上限
`０．０１`(默认)|积极的标量

`NumIterationsConjugateGradient`- - - - - -共轭梯度象限的最大迭代次数
`10`(默认)|正整数

`ConjugateGradientDamping`- - - - - -共轭梯度阻尼系数
`1的军医`(默认)|负的标量

`ConjugateGradientResidualTolerance`- - - - - -共轭梯度剩余容限因子
`1 e-8`(默认)|积极的标量

`NumIterationsLineSearch`- - - - - -线搜索的迭代次数
`10`(默认)|正整数

`NormalizedAdvantageMethod`- - - - - -优势函数的归一化方法
`“没有”`(默认)|`“当前`|`“移动”`

`AdvantageNormalizingWindow`- - - - - -归一化优势函数的窗口大小
`1 e6`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

对象的功能

例子

创建TRPO代理选项对象

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

rlTRPOAgentOptions

描述

创建

语法

描述

属性

ExperienceHorizon- - - - - -学习前agent与环境交互的步骤数512(默认)|正整数

MiniBatchSize- - - - - -Mini-batch大小128(默认)|正整数

EntropyLossWeight- - - - - -熵减肥０．０１(默认)|标量值之间0和1

NumEpoch- - - - - -数量的时代1(默认)|正整数

AdvantageEstimateMethod- - - - - -估算优势值的方法“gae”(默认)|“finite-horizon”

GAEFactor- - - - - -广义优势估计的平滑因子0.95(默认)|标量值之间0和1

UseDeterministicExploitation- - - - - -使用最大可能性的动作假(默认)|真正的

KLDivergenceLimit- - - - - -KL散度的上限０．０１(默认)|积极的标量

NumIterationsConjugateGradient- - - - - -共轭梯度象限的最大迭代次数10(默认)|正整数

ConjugateGradientDamping- - - - - -共轭梯度阻尼系数1的军医(默认)|负的标量

ConjugateGradientResidualTolerance- - - - - -共轭梯度剩余容限因子1 e-8(默认)|积极的标量

NumIterationsLineSearch- - - - - -线搜索的迭代次数10(默认)|正整数

NormalizedAdvantageMethod- - - - - -优势函数的归一化方法“没有”(默认)|“当前|“移动”

AdvantageNormalizingWindow- - - - - -归一化优势函数的窗口大小1 e6(默认)|正整数

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量

对象的功能

例子

创建TRPO代理选项对象

另请参阅

主题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app

`ExperienceHorizon`- - - - - -学习前agent与环境交互的步骤数
`512`(默认)|正整数

`MiniBatchSize`- - - - - -Mini-batch大小
`128`(默认)|正整数

`EntropyLossWeight`- - - - - -熵减肥
`０．０１`(默认)|标量值之间`0`和`1`

`NumEpoch`- - - - - -数量的时代
`1`(默认)|正整数

`AdvantageEstimateMethod`- - - - - -估算优势值的方法
`“gae”`(默认)|`“finite-horizon”`

`GAEFactor`- - - - - -广义优势估计的平滑因子
`0.95`(默认)|标量值之间`0`和`1`

`UseDeterministicExploitation`- - - - - -使用最大可能性的动作
`假`(默认)|`真正的`

`KLDivergenceLimit`- - - - - -KL散度的上限
`０．０１`(默认)|积极的标量

`NumIterationsConjugateGradient`- - - - - -共轭梯度象限的最大迭代次数
`10`(默认)|正整数

`ConjugateGradientDamping`- - - - - -共轭梯度阻尼系数
`1的军医`(默认)|负的标量

`ConjugateGradientResidualTolerance`- - - - - -共轭梯度剩余容限因子
`1 e-8`(默认)|积极的标量

`NumIterationsLineSearch`- - - - - -线搜索的迭代次数
`10`(默认)|正整数

`NormalizedAdvantageMethod`- - - - - -优势函数的归一化方法
`“没有”`(默认)|`“当前`|`“移动”`

`AdvantageNormalizingWindow`- - - - - -归一化优势函数的窗口大小
`1 e6`(默认)|正整数

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量