近端政策优化强化学习代理
近端策略优化(PPO)是一种无模型、在线、基于策略的策略梯度强化学习方法。该算法通过环境交互作用采样数据和使用随机梯度下降优化裁剪的代理目标函数之间进行交替。动作空间可以是离散的,也可以是连续的。
使用默认初始化选项,为具有给定观察和操作规范的环境创建近端策略优化(PPO)代理。代理中的行动者和批评者表示使用从观察规范构建的默认深度神经网络代理
= rlPPOAgent (observationInfo
那actionInfo
的)observationInfo
以及动作规范actionInfo
.
为具有给定观察和动作规范的环境创建PPO代理。属性中指定的选项配置的默认网络代理
= rlPPOAgent (observationInfo
那actionInfo
那initOpts
的)initOpts
对象。行动者-评论家代理不支持递归神经网络。金宝app有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
创建PPO代理并设置AgentOptions财产到代理
= rlPPOAgent (___那代理选项
的)代理选项
输入参数。在前面语法中的任何输入参数之后使用此语法。
火车 |
在指定环境中列车加固学习代理 |
SIM |
在指定的环境中模拟训练过的强化学习代理 |
getAction |
从代理商或演员代表获取行动给定环境观察 |
工作者 |
从强化学习代理中获得角色表示 |
setActor. |
设置强化学习主体的主体表示 |
getCritic |
从强化学习代理获得批判表示 |
setcritic. |
集合强化学习代理的批判表示 |
generatePolicyFunction |
创建评估强化学习代理的训练策略的函数 |
对于连续操作空间,该代理不会强制操作规范设置的约束。在这种情况下,您必须在环境中强制操作空间约束。
深层网络设计师|rlAgentInitializationOptions
|rlppoagentoptions.
|rlStochasticActorRepresentation
|rlValueRepresentation