信托区域政策优化强化学习代理
信托区域政策优化(TRPO)是一个免费的模型,在网上,在政策,政策梯度强化学习方法。相比于通过保持信任区域接近目前的政策范围内更新的政策标准的政策梯度法这种算法防止显著性能下降。动作空间可以是离散的或连续的。
有关TRPO代理的更多信息,请参见信任区域策略优化代理.有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
创建一个用于给定的观察和操作规范的环境中的信任区域策略优化(TRPO)剂,使用缺省初始化选项。在代理使用默认的演员和评论家表示深层神经网络从观测规范构建代理
= rlTRPOAgent(observationInfo
,actionInfo
)observationInfo
和动作规范actionInfo
.
根据给定的观察和操作规范为环境创建TRPO代理。属性中指定的选项配置的默认网络代理
= rlTRPOAgent(observationInfo
,actionInfo
,initOpts
)initOpts
对象。TRPO代理不支持递归神经网络。金宝app有关初始化选项的详细信息,请参阅rlAgentInitializationOptions
.
创建TRPO代理并设置AgentOptions财产代理
= rlTRPOAgent(___,agentOptions
)agentOptions
输入参数。之后的任何的在前面的语法输入参数使用此语法。
火车 |
在指定的环境中训练强化学习代理 |
sim卡 |
模拟训练的强化学习规定的环境内代理 |
的getAction |
根据环境观察,从行为者或行动者的表现中获得行动 |
getActor |
从强化学习代理中获得角色表示 |
setActor |
强化学习代理的集演员表现 |
getCritic |
从强化学习代理人获取评论家表示 |
setCritic |
强化学习剂套装评论家表示 |
generatePolicyFunction |
创建评估强化学习代理的训练策略的函数 |
对于连续操作的空间,该试剂不强制由动作规范设置的约束。在这种情况下,你必须执行环境内采取行动的空间限制。
虽然调整的演员网络的学习速度是必要的PPO剂,它是没有必要的TRPO剂。
对于高维观察,如图像,建议使用PPO、SAC或TD3试剂。