深度确定性策略梯度强化学习agent
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法是一种行为人-批评家、无模型、在线、非策略强化学习方法,它计算出一个使长期回报最大化的最优策略。行动空间只能是连续的。
有关更多信息,请参见深度确定性策略梯度代理.有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
为具有给定观察和操作规范的环境创建一个深度确定性策略梯度代理。属性中指定的选项配置的默认网络代理人
= rlDDPGAgent (观测信息
,行动信息
,初始选项
)初始选项
有关初始化选项的详细信息,请参阅rlagentinizationoptions
.
创建DDPG代理并设置代理人
= rlDDPGAgent (___,代理
)AgentOptions
财产归代理
输入参数。在前面语法中的任何输入参数之后使用此语法。
rlagentinizationoptions
|rlDDPGAgentOptions
|rlQValueRepresentation
|rlDeterministicActorRepresentation
|深层网络设计师