行动者-批评家强化学习代理
actor-批评家(AC)代理实现actor-批评家算法,如A2C和A3C,这是无模型的、在线的、策略上的强化学习方法。行动者-批评家代理直接优化政策(行动者),并使用批评家来估计回报或未来的回报。动作空间可以是离散的,也可以是连续的。
有关更多信息,请参见Actor-Critic代理.有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
使用默认初始化选项,为具有给定观察和操作规范的环境创建参与者-批评者代理。代理中的参与者和批评家表示使用从观察规范构建的默认深度神经网络代理
= rlACAgent (observationInfo
,actionInfo
)observationInfo
和行动规范actionInfo
.
为具有给定的观察和操作规范的环境创建参与者-批评家代理。代理使用默认网络,其中每个隐藏的全连接层具有在代理
= rlACAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。行动者-批评家代理不支持循环神经网络。金宝app有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
创建参与者-批评家代理并设置AgentOptions财产代理
= rlACAgent (___,agentOptions
)agentOptions
输入参数。在前面语法中的任何输入参数之后使用此语法。
对于连续的动作空间,rlACAgent
对象不会强制操作规范设置的约束,因此必须在环境中强制操作空间约束。
深层网络设计师|rlACAgentOptions
|rlAgentInitializationOptions
|rlStochasticActorRepresentation
|rlValueRepresentation