主要内容

rlTRPOAgentOptions

TRPO代理的选择

描述

使用一个rlTRPOAgentOptions对象指定信任区域策略优化(TRPO)代理的选项。要创建TRPO代理,请使用rlTRPOAgent

有关TRPO代理的更多信息,请参见信任区域策略优化代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择= rlTRPOAgentOptions创建一个rlPPOAgentOptions对象,在使用所有默认设置创建TRPO代理时用作参数。可以使用点表示法修改对象属性。

例子

选择= rlTRPOAgentOptions (名称,值设置选项属性使用名称-值参数。例如,rlTRPOAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.您可以指定多个名称-值参数。将每个属性名用引号括起来。

属性

全部展开

代理从环境中吸取经验之前与环境交互的步骤数,指定为正整数。

ExperienceHorizon值必须大于或等于MiniBatchSize价值。

用于每个学习时期的小批量大小,指定为正整数。当代理使用递归神经网络时,MiniBatchSize为训练轨迹长度。

MiniBatchSize值必须小于或等于ExperienceHorizon价值。

熵损失权重,指定为之间的标量值01.较高的熵损失权重值会因为太确定该采取哪个行动而受到惩罚,从而促进agent探索。这样做可以帮助代理移出局部优化。

当在训练过程中计算梯度时,将计算额外的梯度分量以最小化熵损失。有关更多信息,请参见熵损失

行动者和评论家网络从当前经验集中学到的时代的数量,指定为正整数。

评估优势值的方法,具体为:

  • “gae”-广义优势估计

  • “finite-horizon”-有限地平估计

有关这些方法的更多信息,请参阅近端政策优化代理

广义优势估计的平滑因子,指定为之间的标量值01、包容。此选项仅适用于AdvantageEstimateMethod选择是“gae”

选项以模拟和策略生成的最大可能性返回动作,指定为逻辑值。当UseDeterministicExploitation被设置为真正的时,总是使用最大似然的动作sim卡generatePolicyFunction,它使代理具有确定性的行为。

UseDeterministicExploitation被设置为时,代理从概率分布中抽样行为,使代理表现为随机行为。

旧策略和当前策略之间的Kullback-Leibler (KL)散度的上限,指定为一个正标量。

共轭梯度象限的最大迭代次数,指定为正整数。

数值稳定性的共轭梯度阻尼因子,指定为非负标量。

共轭梯度残余公差,指定为正标量。一旦共轭梯度算法的残差低于这个公差,算法就停止。

通常,默认值在大多数情况下都能很好地工作。

行搜索的迭代次数,指定为正整数。

通常,默认值在大多数情况下都能很好地工作。

优势函数值的归一化方法,具体为:

  • “没有”-不要使优势价值正常化

  • “当前”-使用当前小批经验的平均值和标准偏差对优势函数进行归一化。

  • “移动”-使用最近经历的移动窗口的平均值和标准偏差对优势函数进行归一化。要指定窗口大小,请设置AdvantageNormalizingWindow选择。

在某些环境中,可以通过在训练过程中对优势函数进行归一化来提高agent的性能。代理对优势函数进行归一化,方法是减去平均优势值并按标准偏差进行缩放。

归一化优势函数值的窗口大小,指定为正整数。使用此选项时NormalizedAdvantageMethod选择是“移动”

试剂的采样时间,指定为正标量。

在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。

在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡火车

贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。

对象的功能

rlTRPOAgent 信任域策略优化强化学习代理

例子

全部折叠

创建一个TRPO代理选项对象,指定折扣因子。

选择= rlTRPOAgentOptions (“DiscountFactor”, 0.9)
选择= rlTRPOAgentOptions属性:ExperienceHorizon: 512 MiniBatchSize: 128 EntropyLossWeight: 0.0100 NumEpoch: 1 AdvantageEstimateMethod:“gae”GAEFactor: 0.9500 UseDeterministicExploitation: 0 ConjugateGradientDamping: 1.0000 e-04 KLDivergenceLimit: 0.0100 NumIterationsConjugateGradient: 10 NumIterationsLineSearch:10 ConjugateGradientResidualTolerance: 1.0000e-08 NormalizedAdvantageMethod: "none" advantagnormalizingwindow: 1000000 SampleTime: 1 DiscountFactor: 0.9000

您可以使用点符号修改选项。例如,将代理示例时间设置为0.1

opt.SampleTime = 0.1;

另请参阅

介绍了R2021b