政策梯度强化学习代理
策略梯度(PG)算法是一个模范自由,在网上,在政策强化学习方法。PG代理是一个基于策略的强化学习代理使用加强算法直接计算最优政策,最大化的长期回报。可以是离散或连续的行动空间。
创建一个策略梯度代理一个环境与给定的观察和操作规范,使用默认初始化选择。代理的演员和评论家表示使用默认深层神经网络由观测规范代理
= rlPGAgent (observationInfo
,actionInfo
)observationInfo
和操作规范actionInfo
。
创建一个策略梯度代理一个环境与给定的观察和操作规范。代理使用默认的网络中,每个隐藏完全连接层单位中指定的数量代理
= rlPGAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。政策梯度代理不支持递归神经网络。金宝app初始化选项的更多信息,请参阅rlAgentInitializationOptions
。
创建一个PG代理指定的演员网络。默认情况下,代理
= rlPGAgent (演员
)UseBaseline
代理的属性假
在这种情况下。
创建一个PG代理和设置代理
= rlPGAgent (___,agentOptions
)AgentOptions
财产agentOptions
输入参数。使用这个语法的任何输入参数后以前的语法。
连续操作空间,rlPGAgent
代理不执行规定的约束行为规范,所以您必须执行行动空间中约束环境。
rlAgentInitializationOptions
|rlPGAgentOptions
|rlStochasticActorRepresentation
|rlValueRepresentation
|深层网络设计师