rlTD3Agent
双延迟深度确定性策略梯度强化学习代理
描述
双延迟深度确定性策略梯度(DDPG)算法是一种参与者-评论家、无模型、在线、非策略强化学习方法,它计算出一个使长期奖励最大化的最优策略。动作空间只能是连续的。
使用rlTD3Agent
要创建以下类型的代理之一。
具有两个q值函数的双延迟深度确定性策略梯度(TD3)代理。该代理通过学习两个Q值函数并使用最小值进行策略更新来防止值函数的高估。
具有单Q值函数的延迟深度确定性策略梯度(DDPG)代理。此代理是具有目标策略平滑和延迟策略和目标更新的DDPG代理。
有关更多信息,请参见双延迟深度确定性策略梯度代理.有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
创建
语法
描述
根据观察和行动规格创建代理
使用默认初始化选项,为具有给定观察和操作规范的环境创建TD3代理。代理中的行动者和评论家使用从观察规范构建的默认深度神经网络代理
= rlTD3Agent (observationInfo
,actionInfo
)observationInfo
以及动作规范actionInfo
.的ObservationInfo
而且ActionInfo
的属性代理
设置为observationInfo
而且actionInfo
分别输入参数。
使用给定的观察和操作规范为环境创建深度确定性策略梯度代理。属性中指定的选项配置的默认网络代理
= rlTD3Agent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。有关初始化选项的详细信息,请参见rlAgentInitializationOptions
.
从演员和评论家创建代理
指定代理选项
创建TD3代理并设置代理
= rlTD3Agent (___,agentOptions
)AgentOptions
属性agentOptions
输入参数。在前面语法中的任何输入参数之后使用此语法。