深度确定性策略梯度强化学习agent
深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法是一种无模型的、在线的、离线的强化学习方法,它计算出一个使长期回报最大化的最优策略。动作空间只能是连续的。
有关更多信息,请参见深度确定性政策梯度代理.有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
使用默认初始化选项,为具有给定观察和操作规范的环境创建深度确定性策略梯度代理。代理中的行动者和评论家表示使用根据观察规范建立的默认深度神经网络代理
= rlDDPGAgent (observationInfo
,actionInfo
)observationInfo
还有动作规范actionInfo
.
为具有给定观察和操作规范的环境创建深度确定性策略梯度代理。属性中指定的选项配置代理使用默认网络代理
= rlDDPGAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
创建DDPG代理并设置代理
= rlDDPGAgent (___,agentOptions
)AgentOptions
财产agentOptions
输入参数。在前面语法中的任何输入参数之后使用此语法。
深层网络设计师|rlAgentInitializationOptions
|rlDDPGAgentOptions
|rlDeterministicActorRepresentation
|rlQValueRepresentation