rlTRPOAgent
信赖域策略优化强化学习代理
描述
信赖域策略优化(TRPO)是一个模范自由,在网上,在政策、策略梯度强化学习方法。该算法防止显著的性能标准政策相比,梯度下降方法通过保持更新的政策在一个信赖域接近当前的政策。可以是离散或连续的行动空间。
创建
语法
描述
从观察和行动规范创建代理
创建一个信赖域策略优化(TRPO)代理一个环境与给定的观察和操作规范,使用默认初始化选择。代理使用默认的演员兼评论家深层神经网络由观测规范代理
= rlTRPOAgent (observationInfo
,actionInfo
)observationInfo
和操作规范actionInfo
。的ObservationInfo
和ActionInfo
的属性代理
是设置为observationInfo
和actionInfo
分别输入参数。
创建一个TRPO代理一个环境与给定的观察和操作规范。代理使用默认使用选项中指定的网络配置代理
= rlTRPOAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。TRPO代理不支持递归神经网络。金宝app初始化选项的更多信息,请参阅rlAgentInitializationOptions
。
指定代理选项
创建一个TRPO代理并设置AgentOptions财产代理
= rlTRPOAgent (___,agentOptions
)agentOptions
输入参数。使用这个语法的任何输入参数后以前的语法。
输入参数
属性
对象的功能
例子
提示
连续操作空间,这个代理不强制约束,规范设定的动作。在这种情况下,您必须执行行动空间中约束环境。
而调整学习速率的演员PPO代理网络是必要的,没有必要为TRPO代理。
高维观测,如图片,推荐使用PPO,囊或TD3代理。