主要内容

rlTRPOAgentOptions

选择TRPO代理

自从R2021b

描述

使用一个rlTRPOAgentOptions对象指定选择信赖域策略优化(TRPO)代理。创建一个TRPO代理,使用rlTRPOAgent

TRPO代理的更多信息,请参阅信赖域策略优化(TRPO)代理

更多信息在不同类型的强化学习代理,看看强化学习代理

创建

描述

选择= rlTRPOAgentOptions创建一个rlPPOAgentOptions对象用于创建TRPO代理时作为参数使用默认设置。您可以修改对象属性使用点符号。

例子

选择= rlTRPOAgentOptions (名称,值)设置选项属性使用名称-值参数。例如,rlTRPOAgentOptions (DiscountFactor, 0.95)创建一个选项设定的折现系数0.95。您可以指定多个名称参数。在报价附上每个属性的名字。

属性

全部展开

受托人与环境交互的步骤之前,学习其经验,指定为一个正整数。当代理并行训练,ExperienceHorizon被忽略,整个事件是用来计算梯度。

ExperienceHorizon值必须大于或等于MiniBatchSize价值。

Mini-batch大小用于每个学习时代,指定为一个正整数。当代理使用递归神经网络,MiniBatchSize被视为训练轨迹长度。

MiniBatchSize值必须小于或等于ExperienceHorizon价值。

熵损失重量,指定为一个标量值之间01。更高的熵减肥价值促进剂探索运用惩罚过于确定采取哪些行动。这样做可以帮助当地代理的最适条件。

梯度计算在训练时,一个附加的梯度分量计算熵最小化损失。有关更多信息,请参见熵损失

数字时代的演员和评论家网络从当前经验中学习,指定为一个正整数。

的优势值,估算方法指定为以下之一:

  • “gae”——广义优势估计量

  • “finite-horizon”——有限的地平线估计

关于这些方法的更多信息,请参见训练算法信息近端政策优化(PPO)代理

平滑系数估计量为广义优势,指定为一个标量值之间01、包容。该选项只适用于当AdvantageEstimateMethod选择是“gae”

共轭梯度阻尼因子的数值稳定性,指定为负的标量。

Kullback-Leibler上限(吉隆坡)之间的分歧旧政策和当前的政策,指定为一个积极的标量。

最大数量的共轭梯度迭代体面,指定为正整数。

线搜索的迭代次数,指定为一个正整数。

通常情况下,默认值适用于大多数情况下。

共轭梯度残余宽容,指定为一个积极的标量。一旦剩余的共轭梯度算法是低于这个宽容,该算法停止。

通常情况下,默认值适用于大多数情况下。

方法规范优势函数值,指定为以下之一:

  • “没有”——不正常化优势值

  • “当前”——标准化优势函数使用的平均值和标准偏差为当前mini-batch经验。

  • “移动”——标准化优势函数使用一个移动窗口的平均值和标准偏差最近的经历。指定窗口大小,设置AdvantageNormalizingWindow选择。

在某些环境中,您可以通过规范改善剂性能优势函数在训练。代理可实现优势优势函数通过减去平均值和扩展的标准差。

窗口大小正常化优势函数值,指定为一个正整数。使用此选项时NormalizedAdvantageMethod选择是“移动”

评论家优化选项,指定为一个rlOptimizerOptions对象。它允许您指定训练参数的评论家接近者,如学习速率梯度阈值,以及优化算法及其参数。有关更多信息,请参见rlOptimizerOptionsrlOptimizer

样本代理的时候,作为一个积极的标量或指定1。设置这个参数1支持基于事件的模拟。

在一个模型金宝app®环境中,RL代理块中执行每一个指定的代理SampleTime秒的仿真时间。如果SampleTime1块继承了样本时间从母公司子系统。

在MATLAB®环境中,代理执行每一次进步的环境。在这种情况下,SampleTime之间的时间间隔连续元素返回的输出的经验吗sim卡火车。如果SampleTime1之间的时间间隔连续元素返回的输出经验反映了事件触发代理执行的时机。

折现系数应用于未来的回报在训练,指定为一个积极的标量小于或等于1。

对象的功能

rlTRPOAgent 信赖域策略优化(TRPO)强化学习代理

例子

全部折叠

创建一个TRPO代理的选择对象,指定折扣因素。

选择= rlTRPOAgentOptions (DiscountFactor = 0.9)
选择= rlTRPOAgentOptions属性:ExperienceHorizon: 512 MiniBatchSize: 128 EntropyLossWeight: 0.0100 NumEpoch: 3 AdvantageEstimateMethod:“gae”GAEFactor: 0.9500 ConjugateGradientDamping: 0.1000 KLDivergenceLimit: 0.0100 NumIterationsConjugateGradient: 10 NumIterationsLineSearch: 10 ConjugateGradientResidualTolerance: 1.0000 e-08 NormalizedAdvantageMethod:“没有”AdvantageNormalizingWindow: 1000000 CriticOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] SampleTime: 1 DiscountFactor: 0.9000 InfoToSave: [1 x1 struct]

您可以修改选项使用点符号。例如,设置代理样品时间0.1

opt.SampleTime = 0.1;

版本历史

介绍了R2021b

全部展开