近端政策优化强化学习代理
近端策略优化(PPO)是一种无模型,在线,政策,政策梯度加固学习方法。该算法通过环境相互作用的采样数据交替使用随机梯度下降来优化剪裁代理物镜。动作空间可以是离散或连续的。
使用默认初始化选项创建具有给定观察和操作规范的环境的近端策略优化(PPO)代理。代理商中的演员和批评者表示从观察规范内建造的默认深神经网络代理人
= rlPPOAgent (观察税收
那ActionInfo.
)观察税收
和行动规范ActionInfo.
.
为具有给定观察和动作规范的环境创建PPO代理。属性中指定的选项配置的默认网络代理人
= rlPPOAgent (观察税收
那ActionInfo.
那初学者
)初学者
目的。演员批评者不支持经常性的神经网络。金宝app有关初始化选项的详细信息,请参阅rlagentinitializationOptions.
.
火车 |
在指定环境中列车加固学习代理 |
SIM |
在指定环境中模拟培训的钢筋学习代理 |
努力 |
从代理商或演员代表获取行动给定环境观察 |
工作者 |
从强化学习代理中获得角色表示 |
setActor. |
设置钢筋学习代理的演员代表 |
getCritic |
获取钢筋学习代理人的批评奖学金 |
setcritic. |
设定批评批评学习代理的代表 |
生成policyfunction. |
创建评估强化学习代理的训练策略的函数 |
对于连续动作空间,此代理不会强制执行操作规范设置的约束。在这种情况下,您必须在环境中强制执行操作空间约束。
深层网络设计师|rlagentinitializationOptions.
|rlppoagentoptions.
|rlStochasticActorRepresentation
|rlvalueerepresentation