深决定性策略梯度强化学习代理
深决定性策略梯度(DDPG)算法是一种actor-critic,模范自由,在网上,off-policy强化学习方法计算最优政策,最大化的长期回报。操作空间只能是连续的。
有关更多信息,请参见深决定性策略梯度代理。更多信息在不同类型的强化学习代理,看看强化学习代理。
创建一个深决定性策略梯度代理一个环境与给定的观察和操作规范,使用默认初始化选择。代理的演员和评论家表示使用默认深层神经网络由观测规范代理
= rlDDPGAgent (observationInfo
,actionInfo
)observationInfo
和操作规范actionInfo
。
创建一个深决定性策略梯度代理一个环境与给定的观察和操作规范。代理使用默认使用选项中指定的网络配置代理
= rlDDPGAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。初始化选项的更多信息,请参阅rlAgentInitializationOptions
。
创建一个DDPG代理并设置代理
= rlDDPGAgent (___,agentOptions
)AgentOptions
财产agentOptions
输入参数。使用这个语法的任何输入参数后以前的语法。
深层网络设计师|rlAgentInitializationOptions
|rlDDPGAgentOptions
|rlDeterministicActorRepresentation
|rlQValueRepresentation