主要内容

rlPPOAgentOptions

PPO药剂的选择

描述

使用一个rlPPOAgentOptions对象指定近端策略优化(PPO)代理的选项。要创建PPO代理,请使用rlPPOAgent

有关PPO代理的更多信息,请参见近端策略优化代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择= rlPPOAgentOptions创建一个rlPPOAgentOptions对象,在使用所有默认设置创建PPO代理时作为参数使用。可以使用点表示法修改对象属性。

例子

选择= rlPPOAgentOptions (名称,值设置选项属性使用名称-值参数。例如,rlPPOAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.您可以指定多个名称-值参数。将每个属性名用引号括起来。

属性

全部展开

代理从其经验中学习之前与环境交互的步数,指定为正整数。

ExperienceHorizon值必须大于或等于MiniBatchSize价值。

用于每个学习周期的小批处理大小,指定为正整数。当智能体使用循环神经网络时,MiniBatchSize作为训练轨迹长度。

MiniBatchSize值必须小于或等于ExperienceHorizon价值。

用于限制每个策略更新步骤中的更改的剪辑因子,指定为小于的正标量1

熵损失权重,指定为之间的标量值0而且1.较高的熵损失权重值通过对过于确定要采取的行动施加惩罚来促进智能体的探索。这样做可以帮助代理移出局部最优。

当在训练过程中计算梯度时,计算一个额外的梯度分量以最小化这个损失函数。有关更多信息,请参见熵损失

演员和评论家网络从当前经验集中学习的时代数,指定为正整数。

估算优势值的方法,指定为下列之一:

  • “gae”-广义优势估计器

  • “finite-horizon”有限水平估计

有关这些方法的更多信息,请参阅中的训练算法信息近端策略优化代理

用于广义优势估计器的平滑因子,指定为之间的标量值0而且1、包容。此选项仅适用于AdvantageEstimateMethod选择是“gae”

将优势函数值归一化的方法,指定为下列之一:

  • “没有”-不要将优势值标准化

  • “当前”-使用当前小批量经验的平均值和标准差归一化优势函数。

  • “移动”-使用最近经验的移动窗口的平均值和标准偏差将优势函数归一化。要指定窗口大小,请设置AdvantageNormalizingWindow选择。

在某些环境中,可以通过在训练过程中标准化优势函数来提高智能体的性能。代理通过减去平均优势值并按标准偏差缩放来归一化优势函数。

将优势函数值归一化的窗口大小,指定为正整数。时使用此选项NormalizedAdvantageMethod选择是“移动”

对象优化器选项,指定为rlOptimizerOptions对象。它允许您指定角色逼近器的训练参数,如学习率、梯度阈值,以及优化器算法及其参数。有关更多信息,请参见rlOptimizerOptions而且rlOptimizer

评论家优化器选项,指定为rlOptimizerOptions对象。它允许您指定临界逼近器的训练参数,如学习率,梯度阈值,以及优化器算法及其参数。有关更多信息,请参见rlOptimizerOptions而且rlOptimizer

试剂的取样时间,指定为正标量或-1.将此参数设置为-1允许基于事件的模拟。

在Simulink金宝app中®环境中,RL代理块,在其中指定代理执行每个SampleTime秒模拟时间。如果SampleTime-1,块从它的父子系统继承采样时间。

在MATLAB中®环境时,每当环境前进时执行代理。在这种情况下,SampleTime输出经验中连续元素之间的时间间隔是否由返回sim卡火车.如果SampleTime-1,返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时间。

折扣因子应用于培训期间的未来奖励,指定为小于或等于1的正标量。

对象的功能

rlPPOAgent 近端策略优化强化学习代理

例子

全部折叠

创建一个PPO代理选项对象,指定经验范围。

opt = rlPPOAgentOptions(“ExperienceHorizon”, 256)
opt = rlPPOAgentOptions with properties: ExperienceHorizon: 256 MiniBatchSize: 128 ClipFactor: 0.2000 EntropyLossWeight: 0.0100 NumEpoch: 3 AdvantageEstimateMethod: "gae" GAEFactor: 0.9500 NormalizedAdvantageMethod: "none" AdvantageNormalizingWindow: 1000000 ActorOptimizerOptions: [1x1 rl.option. option.]rlOptimizerOptions] CriticOptimizerOptions: [1x1 rl.option. option.]rlOptimizerOptions] SampleTime: 1 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

可以使用点表示法修改选项。例如,设置代理采样时间为0.5

opt.SampleTime = 0.5;

版本历史

R2019b引入

全部展开

另请参阅