策略梯度强化学习代理
策略梯度(PG)算法是一种无模型的在线策略强化学习方法。PG代理是一种基于策略的强化学习代理,它使用强化算法直接计算使长期回报最大化的最优策略。行动空间可以是离散的,也可以是连续的。
使用默认初始化选项为具有给定观察和操作规范的环境创建策略梯度代理。代理中的参与者和批评家表示使用根据观察规范构建的默认深度神经网络代理人
=rlPGAgent(观察税收
,ActionInfo.
)观察税收
以及动作规范ActionInfo.
.
为具有给定观察和操作规范的环境创建策略梯度代理。该代理使用默认网络,其中每个隐藏的完全连接层都有在代理人
=rlPGAgent(观察税收
,ActionInfo.
,初学者
)初学者
对象。政策梯度代理不支持经常性的神经网络。金宝app有关初始化选项的详细信息,请参阅rlagentinitializationOptions.
.
使用指定的参与者网络创建PG代理。默认情况下代理人
=rlPGAgent(演员
)umermbaseline.
代理人的财产为:错误的
在这种情况下。
对于连续动作空间rlPGAgent
代理不强制执行操作规范设置的约束,因此您必须在环境中强制执行操作空间约束。
rlagentinitializationOptions.
|rlPGAgentOptions
|rlStochasticActorRepresentation
|rlvalueerepresentation
|深层网络设计师