rlTRPOAgentOptions

选择TRPO代理

自从R2021b

扩展所有的页面

描述

使用一个rlTRPOAgentOptions对象指定选择信赖域策略优化(TRPO)代理。创建一个TRPO代理,使用rlTRPOAgent。

TRPO代理的更多信息,请参阅信赖域策略优化(TRPO)代理。

更多信息在不同类型的强化学习代理,看看强化学习代理。

创建

语法

选择= rlTRPOAgentOptions

选择= rlTRPOAgentOptions(名称、值)

描述

选择= rlTRPOAgentOptions创建一个rlPPOAgentOptions对象用于创建TRPO代理时作为参数使用默认设置。您可以修改对象属性使用点符号。

例子

选择= rlTRPOAgentOptions (名称,值)设置选项属性使用名称-值参数。例如,rlTRPOAgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称参数。在报价附上每个属性的名字。

属性

全部展开

`ExperienceHorizon`- - - - - -受托人与环境交互的步骤之前学习
`512年`(默认)|正整数

受托人与环境交互的步骤之前,学习其经验,指定为一个正整数。当代理并行训练,ExperienceHorizon被忽略,整个事件是用来计算梯度。

的ExperienceHorizon值必须大于或等于MiniBatchSize价值。

`MiniBatchSize`- - - - - -Mini-batch大小
`128年`(默认)|正整数

Mini-batch大小用于每个学习时代,指定为一个正整数。当代理使用递归神经网络,MiniBatchSize被视为训练轨迹长度。

的MiniBatchSize值必须小于或等于ExperienceHorizon价值。

`EntropyLossWeight`- - - - - -熵减肥
`0.01`(默认)|标量值之间`0`和`1`

熵损失重量,指定为一个标量值之间0和1。更高的熵减肥价值促进剂探索运用惩罚过于确定采取哪些行动。这样做可以帮助当地代理的最适条件。

梯度计算在训练时,一个附加的梯度分量计算熵最小化损失。有关更多信息,请参见熵损失。

`NumEpoch`- - - - - -数量的时代
`1`(默认)|正整数

数字时代的演员和评论家网络从当前经验中学习,指定为一个正整数。

`AdvantageEstimateMethod`- - - - - -估计方法利用价值
`“gae”`(默认)|`“finite-horizon”`

的优势值,估算方法指定为以下之一:

“gae”——广义优势估计量
“finite-horizon”——有限的地平线估计

关于这些方法的更多信息,请参见训练算法信息近端政策优化(PPO)代理。

`GAEFactor`- - - - - -平滑系数估计量为广义的优势
`0.95`(默认)|标量值之间`0`和`1`

平滑系数估计量为广义优势,指定为一个标量值之间0和1、包容。该选项只适用于当AdvantageEstimateMethod选择是“gae”

`ConjugateGradientDamping`- - - - - -共轭梯度阻尼因子
`1的军医`(默认)|负的标量

共轭梯度阻尼因子的数值稳定性,指定为负的标量。

`KLDivergenceLimit`- - - - - -上限为KL散度
`0.01`(默认)|积极的标量

Kullback-Leibler上限(吉隆坡)之间的分歧旧政策和当前的政策,指定为一个积极的标量。

`NumIterationsConjugateGradient`- - - - - -最大数量的共轭梯度迭代体面的
`10`(默认)|正整数

最大数量的共轭梯度迭代体面,指定为正整数。

`NumIterationsLineSearch`- - - - - -线搜索的迭代次数
`10`(默认)|正整数

线搜索的迭代次数,指定为一个正整数。

通常情况下,默认值适用于大多数情况下。

`ConjugateGradientResidualTolerance`- - - - - -共轭梯度残余宽容的因素
`1 e-8`(默认)|积极的标量

共轭梯度残余宽容,指定为一个积极的标量。一旦剩余的共轭梯度算法是低于这个宽容,该算法停止。

通常情况下,默认值适用于大多数情况下。

`NormalizedAdvantageMethod`- - - - - -方法优势功能正常化
`“没有”`(默认)|`“当前`|`“移动”`

方法规范优势函数值,指定为以下之一:

“没有”——不正常化优势值
“当前”——标准化优势函数使用的平均值和标准偏差为当前mini-batch经验。
“移动”——标准化优势函数使用一个移动窗口的平均值和标准偏差最近的经历。指定窗口大小,设置AdvantageNormalizingWindow选择。

在某些环境中,您可以通过规范改善剂性能优势函数在训练。代理可实现优势优势函数通过减去平均值和扩展的标准差。

`AdvantageNormalizingWindow`- - - - - -窗口大小为优势功能正常化
`1 e6`(默认)|正整数

窗口大小正常化优势函数值,指定为一个正整数。使用此选项时NormalizedAdvantageMethod选择是“移动”。

`CriticOptimizerOptions`- - - - - -评论家优化器选择
`rlOptimizerOptions`对象

评论家优化选项,指定为一个rlOptimizerOptions对象。它允许您指定训练参数的评论家接近者,如学习速率梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptions和rlOptimizer。

`SampleTime`- - - - - -样本的代理
`1`(默认)|积极的标量|`1`

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。

在一个模型金宝app^®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime是1块继承了样本时间从母公司子系统。

在MATLAB^®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡或火车。如果SampleTime是1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|积极的标量小于或等于1

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlTRPOAgent 信赖域策略优化(TRPO)强化学习代理

例子

全部折叠

创建TRPO代理的选择对象

打开生活的脚本

创建一个TRPO代理的选择对象,指定折扣因素。

选择= rlTRPOAgentOptions (DiscountFactor = 0.9)

选择= rlTRPOAgentOptions属性:ExperienceHorizon: 512 MiniBatchSize: 128 EntropyLossWeight: 0.0100 NumEpoch: 3 AdvantageEstimateMethod:“gae”GAEFactor: 0.9500 ConjugateGradientDamping: 0.1000 KLDivergenceLimit: 0.0100 NumIterationsConjugateGradient: 10 NumIterationsLineSearch: 10 ConjugateGradientResidualTolerance: 1.0000 e-08 NormalizedAdvantageMethod:“没有”AdvantageNormalizingWindow: 1000000 CriticOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] SampleTime: 1 DiscountFactor: 0.9000 InfoToSave: [1 x1 struct]

您可以修改选项使用点符号。例如,设置代理样品时间0.1。

opt.SampleTime = 0.1;

版本历史

介绍了R2021b

全部展开

R2022a:仿真和部署:`UseDeterministicExploitation`将被删除

房地产UseDeterministicExploitation的rlTRPOAgentOptions对象将被删除在将来的版本中。使用UseExplorationPolicy的属性rlTRPOAgent代替。

以前,你UseDeterministicExploitation如下。

力代理总是选择最大似然的行动,从而使用贪婪的确定性的政策模拟和部署。
```
agent.AgentOptions。UseDeterministicExploitation = true;
```
允许代理选择其行动抽样概率分布仿真和政策部署,从而使用随机策略,探讨了观测空间。
```
agent.AgentOptions。UseDeterministicExploitation = false;
```

从R2022a开始,集UseExplorationPolicy如下。

力代理总是选择最大似然的行动,从而使用贪婪的确定性的政策模拟和部署。
```
代理。UseExplorationPolicy = false;
```
允许代理选择其行动抽样概率分布仿真和政策部署,从而使用随机策略,探讨了观测空间。
```
代理。UseExplorationPolicy = true;
```

类似于UseDeterministicExploitation,UseExplorationPolicy只会影响仿真和部署;它不影响训练。

rlTRPOAgentOptions

描述

创建

语法

描述

属性

`ExperienceHorizon`- - - - - -受托人与环境交互的步骤之前学习
`512年`(默认)|正整数

`MiniBatchSize`- - - - - -Mini-batch大小
`128年`(默认)|正整数

`EntropyLossWeight`- - - - - -熵减肥
`0.01`(默认)|标量值之间`0`和`1`

`NumEpoch`- - - - - -数量的时代
`1`(默认)|正整数

`AdvantageEstimateMethod`- - - - - -估计方法利用价值
`“gae”`(默认)|`“finite-horizon”`

`GAEFactor`- - - - - -平滑系数估计量为广义的优势
`0.95`(默认)|标量值之间`0`和`1`

`ConjugateGradientDamping`- - - - - -共轭梯度阻尼因子
`1的军医`(默认)|负的标量

`KLDivergenceLimit`- - - - - -上限为KL散度
`0.01`(默认)|积极的标量

`NumIterationsConjugateGradient`- - - - - -最大数量的共轭梯度迭代体面的
`10`(默认)|正整数

`NumIterationsLineSearch`- - - - - -线搜索的迭代次数
`10`(默认)|正整数

`ConjugateGradientResidualTolerance`- - - - - -共轭梯度残余宽容的因素
`1 e-8`(默认)|积极的标量

`NormalizedAdvantageMethod`- - - - - -方法优势功能正常化
`“没有”`(默认)|`“当前`|`“移动”`

`AdvantageNormalizingWindow`- - - - - -窗口大小为优势功能正常化
`1 e6`(默认)|正整数

`CriticOptimizerOptions`- - - - - -评论家优化器选择
`rlOptimizerOptions`对象

`SampleTime`- - - - - -样本的代理
`1`(默认)|积极的标量|`1`

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|积极的标量小于或等于1

对象的功能

例子

创建TRPO代理的选择对象

版本历史

R2022a:仿真和部署:`UseDeterministicExploitation`将被删除

另请参阅

对象

主题

rlTRPOAgentOptions

描述

创建

语法

描述

属性

ExperienceHorizon- - - - - -受托人与环境交互的步骤之前学习512年(默认)|正整数

MiniBatchSize- - - - - -Mini-batch大小128年(默认)|正整数

EntropyLossWeight- - - - - -熵减肥0.01(默认)|标量值之间0和1

NumEpoch- - - - - -数量的时代1(默认)|正整数

AdvantageEstimateMethod- - - - - -估计方法利用价值“gae”(默认)|“finite-horizon”

GAEFactor- - - - - -平滑系数估计量为广义的优势0.95(默认)|标量值之间0和1

ConjugateGradientDamping- - - - - -共轭梯度阻尼因子1的军医(默认)|负的标量

KLDivergenceLimit- - - - - -上限为KL散度0.01(默认)|积极的标量

NumIterationsConjugateGradient- - - - - -最大数量的共轭梯度迭代体面的10(默认)|正整数

NumIterationsLineSearch- - - - - -线搜索的迭代次数10(默认)|正整数

ConjugateGradientResidualTolerance- - - - - -共轭梯度残余宽容的因素1 e-8(默认)|积极的标量

NormalizedAdvantageMethod- - - - - -方法优势功能正常化“没有”(默认)|“当前|“移动”

AdvantageNormalizingWindow- - - - - -窗口大小为优势功能正常化1 e6(默认)|正整数

CriticOptimizerOptions- - - - - -评论家优化器选择rlOptimizerOptions对象

SampleTime- - - - - -样本的代理1(默认)|积极的标量|1

DiscountFactor- - - - - -折现系数0.99(默认)|积极的标量小于或等于1

对象的功能

例子

创建TRPO代理的选择对象

版本历史

R2022a:仿真和部署:UseDeterministicExploitation将被删除

另请参阅

对象

主题

`ExperienceHorizon`- - - - - -受托人与环境交互的步骤之前学习
`512年`(默认)|正整数

`MiniBatchSize`- - - - - -Mini-batch大小
`128年`(默认)|正整数

`EntropyLossWeight`- - - - - -熵减肥
`0.01`(默认)|标量值之间`0`和`1`

`NumEpoch`- - - - - -数量的时代
`1`(默认)|正整数

`AdvantageEstimateMethod`- - - - - -估计方法利用价值
`“gae”`(默认)|`“finite-horizon”`

`GAEFactor`- - - - - -平滑系数估计量为广义的优势
`0.95`(默认)|标量值之间`0`和`1`

`ConjugateGradientDamping`- - - - - -共轭梯度阻尼因子
`1的军医`(默认)|负的标量

`KLDivergenceLimit`- - - - - -上限为KL散度
`0.01`(默认)|积极的标量

`NumIterationsConjugateGradient`- - - - - -最大数量的共轭梯度迭代体面的
`10`(默认)|正整数

`NumIterationsLineSearch`- - - - - -线搜索的迭代次数
`10`(默认)|正整数

`ConjugateGradientResidualTolerance`- - - - - -共轭梯度残余宽容的因素
`1 e-8`(默认)|积极的标量

`NormalizedAdvantageMethod`- - - - - -方法优势功能正常化
`“没有”`(默认)|`“当前`|`“移动”`

`AdvantageNormalizingWindow`- - - - - -窗口大小为优势功能正常化
`1 e6`(默认)|正整数

`CriticOptimizerOptions`- - - - - -评论家优化器选择
`rlOptimizerOptions`对象

`SampleTime`- - - - - -样本的代理
`1`(默认)|积极的标量|`1`

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|积极的标量小于或等于1

R2022a:仿真和部署:`UseDeterministicExploitation`将被删除