文档帮助中心文档
PPO代理的选项
使用rlPPOAgentOptions对象以指定近端策略优化(PPO)代理的选项。创建PPO代理,使用RLP发泡剂.
rlPPOAgentOptions
RLP发泡剂
有关PPO代理商的更多信息,请参阅策略优化代理.
有关不同类型的强化学习代理的更多信息,请参阅加固学习代理人.
opt=rlPPOAgentOptions
opt = rlppoagentoptions(名称,值)
选择= rlppoagentoptions.创建一个rlPPOAgentOptions对象,在使用所有默认设置创建PPO代理时用作参数。您可以使用点表示法修改对象属性。
选择= rlppoagentoptions.
选择
实例
选择=rlPPOAgentOptions(名称、值)设置选项特性使用名称值参数。例如,rlPPOAgentOptions('DiscountFactor',0.95)创建一个选项设置,折扣系数0.95。您可以指定多个名称值参数。请将每个属性名称用引号括起来。
选择=rlPPOAgentOptions(名称、值)
名称、值
rlPPOAgentOptions('DiscountFactor',0.95)
0.95
全部展开
经验视野
512
代理在从其经验中学习之前与环境交互的步骤数,指定为正整数。
这个经验视野值必须大于或等于小匹匹匹匹配价值
小匹匹匹匹配
128
用于每个学习阶段的最小批量,指定为正整数。当代理使用递归神经网络时,小匹匹匹匹配被视为训练轨迹长度。
这个小匹匹匹匹配值必须小于或等于经验视野价值
ClipFactor.
0.2
1.
用于限制每个策略更新步骤中的更改的剪裁因子,指定为小于的正标量1..
无熵重量
0.01
0
熵损失权重,指定为介于0和1..更高的熵损失重量值通过对太肯定采取的行动施加罚款来促进代理商探索。这样做可以帮助代理人迁出当地的Optima。
当在训练期间计算梯度时,将计算额外的梯度分量以最小化此损失函数。有关更多信息,请参阅熵损失.
努梅波奇
3.
演员和批评网络从当前体验集中学习的时代数量,指定为正整数。
优势估计法
“gae”
“有限地平线”
估计优势值的方法,指定为以下之一:
“gae”-广义优势估计量
“有限地平线”-有限时域估计
有关这些方法的更多信息,请参阅中的培训算法信息策略优化代理.
高福戈斯
广义优势估计器的平滑因子,指定为介于0和1.,包括在内。此选项仅在优势估计法选项是“gae”
利用决定论剥削
错误的
真的
选项以返回最大可能性用于模拟和策略生成的最大可能性,指定为逻辑值。什么时候利用决定论剥削被设定为真的,始终使用最大可能性的动作模拟和生成policyfunction.,这会导致代理的行为具有决定性。
模拟
生成policyfunction.
什么时候利用决定论剥削被设定为错误的,agent从概率分布中对动作进行采样,从而使agent的行为具有随机性。
标准化优势法
“没有任何”
“当前
“移动”
归一化优势函数值的方法,指定为以下之一:
“没有任何”- 不要标准化优势值
“当前”-使用当前小批量体验的平均值和标准偏差规范化优势函数。
“当前”
“移动”- 使用最近经验的移动窗口的平均值和标准偏差来归一化优势函数。要指定窗口大小,请设置AdvantagenormalizationWindow.选项。
AdvantagenormalizationWindow.
在某些环境中,您可以通过在培训期间标准化优势函数来提高代理的性能。代理通过减去平均优势值和标准偏差来标准化优势函数。
1e6
窗口大小用于归一化优势函数值,指定为正整数。使用此选项标准化优势法选项是“移动”.
取样时间
代理的采样时间,指定为正标量。
在Simulink金宝app中®环境中,代理将在每个取样时间模拟时间秒。
在Matlab中®环境,代理每次环境进步时都会执行。然而,取样时间是输出体验中连续元素之间的时间间隔模拟或者火车.
火车
折扣因素
0.99
在培训期间应用于未来奖励的折扣因素,指定为小于或等于1的正标量。
全部收缩
创建PPO代理选项对象,指定体验范围。
opt = rlppoagentoptions('经验热诚',256)
opt=rlppoagent属性选项:ExperienceHorizon:256 MiniBatchSize:128 ClipFactor:0.2000 EntropyLossWeight:0.0100 NumEpoch:3 Advantage估计方法:“gae”GAEFactor:0.9500 UseDeterministicExploration:0 NormalizedAdvantage方法:“无”Advantage最大化Windows:1000000样本时间:1折扣系数:0.9900
您可以使用点符号修改选项。例如,将代理采样时间设置为0.5.
0.5
opt.sampletime = 0.5;
您有此示例的修改版本。是否要用您的编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站以获取可用的翻译内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区站点不适合您所在位置的访问。
联系您当地的办公室