文档帮助中心文档
TRPO代理的选择
使用一个rlTRPOAgentOptions对象指定信任区域策略优化(TRPO)代理的选项。要创建TRPO代理,请使用rlTRPOAgent.
rlTRPOAgentOptions
rlTRPOAgent
有关TRPO代理的更多信息,请参见信任区域策略优化代理.
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
选择= rlTRPOAgentOptions
选择= rlTRPOAgentOptions(名称、值)
选择= rlTRPOAgentOptions创建一个rlPPOAgentOptions对象,在使用所有默认设置创建TRPO代理时用作参数。可以使用点表示法修改对象属性。
选择
rlPPOAgentOptions
例子
选择= rlTRPOAgentOptions (名称,值)设置选项属性使用名称-值参数。例如,rlTRPOAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.您可以指定多个名称-值参数。将每个属性名用引号括起来。
选择= rlTRPOAgentOptions (名称,值)
名称,值
rlTRPOAgentOptions (DiscountFactor, 0.95)
0.95
全部展开
ExperienceHorizon
512
代理从环境中吸取经验之前与环境交互的步骤数,指定为正整数。
的ExperienceHorizon值必须大于或等于MiniBatchSize价值。
MiniBatchSize
128
用于每个学习时期的小批量大小,指定为正整数。当代理使用递归神经网络时,MiniBatchSize为训练轨迹长度。
的MiniBatchSize值必须小于或等于ExperienceHorizon价值。
EntropyLossWeight
0.01
0
1
熵损失权重,指定为之间的标量值0和1.较高的熵损失权重值会因为太确定该采取哪个行动而受到惩罚,从而促进agent探索。这样做可以帮助代理移出局部优化。
当在训练过程中计算梯度时,将计算额外的梯度分量以最小化熵损失。有关更多信息,请参见熵损失.
NumEpoch
行动者和评论家网络从当前经验集中学到的时代的数量,指定为正整数。
AdvantageEstimateMethod
“gae”
“finite-horizon”
评估优势值的方法,具体为:
“gae”-广义优势估计
“finite-horizon”-有限地平估计
有关这些方法的更多信息,请参阅近端政策优化代理.
GAEFactor
广义优势估计的平滑因子,指定为之间的标量值0和1、包容。此选项仅适用于AdvantageEstimateMethod选择是“gae”
UseDeterministicExploitation
假
真正的
选项以模拟和策略生成的最大可能性返回动作,指定为逻辑值。当UseDeterministicExploitation被设置为真正的时,总是使用最大似然的动作sim卡和generatePolicyFunction,它使代理具有确定性的行为。
sim卡
generatePolicyFunction
当UseDeterministicExploitation被设置为假时,代理从概率分布中抽样行为,使代理表现为随机行为。
KLDivergenceLimit
旧策略和当前策略之间的Kullback-Leibler (KL)散度的上限,指定为一个正标量。
NumIterationsConjugateGradient
10
共轭梯度象限的最大迭代次数,指定为正整数。
ConjugateGradientDamping
1的军医
数值稳定性的共轭梯度阻尼因子,指定为非负标量。
ConjugateGradientResidualTolerance
1 e-8
共轭梯度残余公差,指定为正标量。一旦共轭梯度算法的残差低于这个公差,算法就停止。
通常,默认值在大多数情况下都能很好地工作。
NumIterationsLineSearch
行搜索的迭代次数,指定为正整数。
NormalizedAdvantageMethod
“没有”
“当前
“移动”
优势函数值的归一化方法,具体为:
“没有”-不要使优势价值正常化
“当前”-使用当前小批经验的平均值和标准偏差对优势函数进行归一化。
“当前”
“移动”-使用最近经历的移动窗口的平均值和标准偏差对优势函数进行归一化。要指定窗口大小,请设置AdvantageNormalizingWindow选择。
AdvantageNormalizingWindow
在某些环境中,可以通过在训练过程中对优势函数进行归一化来提高agent的性能。代理对优势函数进行归一化,方法是减去平均优势值并按标准偏差进行缩放。
1 e6
归一化优势函数值的窗口大小,指定为正整数。使用此选项时NormalizedAdvantageMethod选择是“移动”.
SampleTime
试剂的采样时间,指定为正标量。
在一个模型金宝app®环境中,代理被执行SampleTime模拟时间的秒数。
在MATLAB®环境中,每当环境进步时,代理就会被执行。然而,SampleTime返回的输出经验中连续元素之间的时间间隔是多少sim卡或火车.
火车
DiscountFactor
0.99
贴现因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。
全部折叠
创建一个TRPO代理选项对象,指定折扣因子。
选择= rlTRPOAgentOptions (“DiscountFactor”, 0.9)
选择= rlTRPOAgentOptions属性:ExperienceHorizon: 512 MiniBatchSize: 128 EntropyLossWeight: 0.0100 NumEpoch: 1 AdvantageEstimateMethod:“gae”GAEFactor: 0.9500 UseDeterministicExploitation: 0 ConjugateGradientDamping: 1.0000 e-04 KLDivergenceLimit: 0.0100 NumIterationsConjugateGradient: 10 NumIterationsLineSearch:10 ConjugateGradientResidualTolerance: 1.0000e-08 NormalizedAdvantageMethod: "none" advantagnormalizingwindow: 1000000 SampleTime: 1 DiscountFactor: 0.9000
您可以使用点符号修改选项。例如,将代理示例时间设置为0.1.
0.1
opt.SampleTime = 0.1;
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系