主要内容

rlPPOAgentOptions

PPO代理的选项

描述

使用rlPPOAgentOptions对象以指定近端策略优化(PPO)代理的选项。创建PPO代理,使用RLP发泡剂.

有关PPO代理商的更多信息,请参阅策略优化代理.

有关不同类型的强化学习代理的更多信息,请参阅加固学习代理人.

创造

描述

选择= rlppoagentoptions.创建一个rlPPOAgentOptions对象,在使用所有默认设置创建PPO代理时用作参数。您可以使用点表示法修改对象属性。

实例

选择=rlPPOAgentOptions(名称、值)设置选项特性使用名称值参数。例如,rlPPOAgentOptions('DiscountFactor',0.95)创建一个选项设置,折扣系数0.95。您可以指定多个名称值参数。请将每个属性名称用引号括起来。

性质

全部展开

代理在从其经验中学习之前与环境交互的步骤数,指定为正整数。

这个经验视野值必须大于或等于小匹匹匹匹配价值

用于每个学习阶段的最小批量,指定为正整数。当代理使用递归神经网络时,小匹匹匹匹配被视为训练轨迹长度。

这个小匹匹匹匹配值必须小于或等于经验视野价值

用于限制每个策略更新步骤中的更改的剪裁因子,指定为小于的正标量1..

熵损失权重,指定为介于01..更高的熵损失重量值通过对太肯定采取的行动施加罚款来促进代理商探索。这样做可以帮助代理人迁出当地的Optima。

当在训练期间计算梯度时,将计算额外的梯度分量以最小化此损失函数。有关更多信息,请参阅熵损失.

演员和批评网络从当前体验集中学习的时代数量,指定为正整数。

估计优势值的方法,指定为以下之一:

  • “gae”-广义优势估计量

  • “有限地平线”-有限时域估计

有关这些方法的更多信息,请参阅中的培训算法信息策略优化代理.

广义优势估计器的平滑因子,指定为介于01.,包括在内。此选项仅在优势估计法选项是“gae”

选项以返回最大可能性用于模拟和策略生成的最大可能性,指定为逻辑值。什么时候利用决定论剥削被设定为真的,始终使用最大可能性的动作模拟生成policyfunction.,这会导致代理的行为具有决定性。

什么时候利用决定论剥削被设定为错误的,agent从概率分布中对动作进行采样,从而使agent的行为具有随机性。

归一化优势函数值的方法,指定为以下之一:

  • “没有任何”- 不要标准化优势值

  • “当前”-使用当前小批量体验的平均值和标准偏差规范化优势函数。

  • “移动”- 使用最近经验的移动窗口的平均值和标准偏差来归一化优势函数。要指定窗口大小,请设置AdvantagenormalizationWindow.选项。

在某些环境中,您可以通过在培训期间标准化优势函数来提高代理的性能。代理通过减去平均优势值和标准偏差来标准化优势函数。

窗口大小用于归一化优势函数值,指定为正整数。使用此选项标准化优势法选项是“移动”.

代理的采样时间,指定为正标量。

在Simulink金宝app中®环境中,代理将在每个取样时间模拟时间秒。

在Matlab中®环境,代理每次环境进步时都会执行。然而,取样时间是输出体验中连续元素之间的时间间隔模拟或者火车.

在培训期间应用于未来奖励的折扣因素,指定为小于或等于1的正标量。

目标函数

RLP发泡剂 最近策略优化强化学习代理

例子

全部收缩

创建PPO代理选项对象,指定体验范围。

opt = rlppoagentoptions('经验热诚',256)
opt=rlppoagent属性选项:ExperienceHorizon:256 MiniBatchSize:128 ClipFactor:0.2000 EntropyLossWeight:0.0100 NumEpoch:3 Advantage估计方法:“gae”GAEFactor:0.9500 UseDeterministicExploration:0 NormalizedAdvantage方法:“无”Advantage最大化Windows:1000000样本时间:1折扣系数:0.9900

您可以使用点符号修改选项。例如,将代理采样时间设置为0.5.

opt.sampletime = 0.5;

另见

在R2019b中引入