rlPPOAgentOptions

PPO代理的选项

在第页中展开全部

描述

使用rlPPOAgentOptions对象以指定近端策略优化（PPO）代理的选项。创建PPO代理，使用RLP发泡剂.

有关PPO代理商的更多信息，请参阅策略优化代理.

有关不同类型的强化学习代理的更多信息，请参阅加固学习代理人.

创造

语法

opt=rlPPOAgentOptions

opt = rlppoagentoptions（名称，值）

描述

选择= rlppoagentoptions.创建一个rlPPOAgentOptions对象，在使用所有默认设置创建PPO代理时用作参数。您可以使用点表示法修改对象属性。

实例

选择=rlPPOAgentOptions(名称、值)设置选项特性使用名称值参数。例如，rlPPOAgentOptions（'DiscountFactor'，0.95）创建一个选项设置，折扣系数0.95。您可以指定多个名称值参数。请将每个属性名称用引号括起来。

性质

全部展开

`经验视野`—学习前agent与环境交互的步骤数
`512`（默认）|正整数

代理在从其经验中学习之前与环境交互的步骤数，指定为正整数。

这个经验视野值必须大于或等于小匹匹匹匹配价值

`小匹匹匹匹配`—迷你批量尺寸
`128`（默认）|正整数

用于每个学习阶段的最小批量，指定为正整数。当代理使用递归神经网络时，小匹匹匹匹配被视为训练轨迹长度。

这个小匹匹匹匹配值必须小于或等于经验视野价值

`ClipFactor.`—剪辑因子
`0.2`（默认）|正标量小于`1.`

用于限制每个策略更新步骤中的更改的剪裁因子，指定为小于的正标量1..

`无熵重量`—熵损失重量
`0.01`（默认）|之间的标量值`0`和`1.`

熵损失权重，指定为介于0和1..更高的熵损失重量值通过对太肯定采取的行动施加罚款来促进代理商探索。这样做可以帮助代理人迁出当地的Optima。

当在训练期间计算梯度时，将计算额外的梯度分量以最小化此损失函数。有关更多信息，请参阅熵损失.

`努梅波奇`—时代数量
`3.`（默认）|正整数

演员和批评网络从当前体验集中学习的时代数量，指定为正整数。

`优势估计法`—估计优势值的方法
`“gae”`（默认）|`“有限地平线”`

估计优势值的方法，指定为以下之一：

“gae”-广义优势估计量
“有限地平线”-有限时域估计

有关这些方法的更多信息，请参阅中的培训算法信息策略优化代理.

`高福戈斯`—广义优势估计的平滑因子
`0.95`（默认）|之间的标量值`0`和`1.`

广义优势估计器的平滑因子，指定为介于0和1.，包括在内。此选项仅在优势估计法选项是“gae”

`利用决定论剥削`—使用具有最大可能性的操作
`错误的`（默认）|`真的`

选项以返回最大可能性用于模拟和策略生成的最大可能性，指定为逻辑值。什么时候利用决定论剥削被设定为真的，始终使用最大可能性的动作模拟和生成policyfunction.，这会导致代理的行为具有决定性。

什么时候利用决定论剥削被设定为错误的，agent从概率分布中对动作进行采样，从而使agent的行为具有随机性。

`标准化优势法`—归一化优势功能的方法
`“没有任何”`（默认）|`“当前`|`“移动”`

归一化优势函数值的方法，指定为以下之一：

“没有任何”- 不要标准化优势值
“当前”-使用当前小批量体验的平均值和标准偏差规范化优势函数。
“移动”- 使用最近经验的移动窗口的平均值和标准偏差来归一化优势函数。要指定窗口大小，请设置AdvantagenormalizationWindow.选项。

在某些环境中，您可以通过在培训期间标准化优势函数来提高代理的性能。代理通过减去平均优势值和标准偏差来标准化优势函数。

`AdvantagenormalizationWindow.`—用于规范化advantage函数的窗口大小
`1e6`（默认）|正整数

窗口大小用于归一化优势函数值，指定为正整数。使用此选项标准化优势法选项是“移动”.

`取样时间`—代理的采样时间
`1.`（默认）|正标量

代理的采样时间，指定为正标量。

在Simulink金宝app中^®环境中，代理将在每个取样时间模拟时间秒。

在Matlab中^®环境，代理每次环境进步时都会执行。然而，取样时间是输出体验中连续元素之间的时间间隔模拟或者火车.

`折扣因素`—折扣系数
`0.99`（默认）|正标量小于或等于1

在培训期间应用于未来奖励的折扣因素，指定为小于或等于1的正标量。

目标函数

RLP发泡剂 最近策略优化强化学习代理

例子

全部收缩

创建PPO代理选项对象

打开直播脚本

创建PPO代理选项对象，指定体验范围。

opt = rlppoagentoptions（'经验热诚',256)

opt=rlppoagent属性选项：ExperienceHorizon:256 MiniBatchSize:128 ClipFactor:0.2000 EntropyLossWeight:0.0100 NumEpoch:3 Advantage估计方法：“gae”GAEFactor:0.9500 UseDeterministicExploration:0 NormalizedAdvantage方法：“无”Advantage最大化Windows:1000000样本时间：1折扣系数：0.9900

您可以使用点符号修改选项。例如，将代理采样时间设置为0.5.

opt.sampletime = 0.5;

另见

话题

策略优化代理

在R2019b中引入

rlPPOAgentOptions

描述

创造

语法

描述

性质

`经验视野`—学习前agent与环境交互的步骤数
`512`（默认）|正整数

`小匹匹匹匹配`—迷你批量尺寸
`128`（默认）|正整数

`ClipFactor.`—剪辑因子
`0.2`（默认）|正标量小于`1.`

`无熵重量`—熵损失重量
`0.01`（默认）|之间的标量值`0`和`1.`

`努梅波奇`—时代数量
`3.`（默认）|正整数

`优势估计法`—估计优势值的方法
`“gae”`（默认）|`“有限地平线”`

`高福戈斯`—广义优势估计的平滑因子
`0.95`（默认）|之间的标量值`0`和`1.`

`利用决定论剥削`—使用具有最大可能性的操作
`错误的`（默认）|`真的`

`标准化优势法`—归一化优势功能的方法
`“没有任何”`（默认）|`“当前`|`“移动”`

`AdvantagenormalizationWindow.`—用于规范化advantage函数的窗口大小
`1e6`（默认）|正整数

`取样时间`—代理的采样时间
`1.`（默认）|正标量

`折扣因素`—折扣系数
`0.99`（默认）|正标量小于或等于1

目标函数

例子

创建PPO代理选项对象

另见

话题

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

rlPPOAgentOptions

描述

创造

语法

描述

性质

经验视野—学习前agent与环境交互的步骤数512（默认）|正整数

小匹匹匹匹配—迷你批量尺寸128（默认）|正整数

ClipFactor.—剪辑因子0.2（默认）|正标量小于1.

无熵重量—熵损失重量0.01（默认）|之间的标量值0和1.

努梅波奇—时代数量3.（默认）|正整数

优势估计法—估计优势值的方法“gae”（默认）|“有限地平线”

高福戈斯—广义优势估计的平滑因子0.95（默认）|之间的标量值0和1.

利用决定论剥削—使用具有最大可能性的操作错误的（默认）|真的

标准化优势法—归一化优势功能的方法“没有任何”（默认）|“当前|“移动”

AdvantagenormalizationWindow.—用于规范化advantage函数的窗口大小1e6（默认）|正整数

取样时间—代理的采样时间1.（默认）|正标量

折扣因素—折扣系数0.99（默认）|正标量小于或等于1

目标函数

例子

创建PPO代理选项对象

另见

话题

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

`经验视野`—学习前agent与环境交互的步骤数
`512`（默认）|正整数

`小匹匹匹匹配`—迷你批量尺寸
`128`（默认）|正整数

`ClipFactor.`—剪辑因子
`0.2`（默认）|正标量小于`1.`

`无熵重量`—熵损失重量
`0.01`（默认）|之间的标量值`0`和`1.`

`努梅波奇`—时代数量
`3.`（默认）|正整数

`优势估计法`—估计优势值的方法
`“gae”`（默认）|`“有限地平线”`

`高福戈斯`—广义优势估计的平滑因子
`0.95`（默认）|之间的标量值`0`和`1.`

`利用决定论剥削`—使用具有最大可能性的操作
`错误的`（默认）|`真的`

`标准化优势法`—归一化优势功能的方法
`“没有任何”`（默认）|`“当前`|`“移动”`

`AdvantagenormalizationWindow.`—用于规范化advantage函数的窗口大小
`1e6`（默认）|正整数

`取样时间`—代理的采样时间
`1.`（默认）|正标量

`折扣因素`—折扣系数
`0.99`（默认）|正标量小于或等于1