深度q -网络强化学习代理
深度Q-网络(DQN)算法是一种无模型、在线、非策略强化学习方法。DQN代理是一种基于价值的强化学习代理,用于训练批评家估计回报或未来奖励。DQN是Q-学习的一种变体,它仅在离散的行动空间中运行。
使用默认初始化选项为具有给定观察和操作规范的环境创建DQN代理。代理中的批评家表示使用根据观察规范构建的默认多输出Q值深度神经网络代理人
= rlDQNAgent (observationInfo
,actionInfo
)observationInfo
以及动作规范actionInfo
.
使用给定的观察和操作规范创建一个环境的DQN代理。代理使用使用指定的选项配置的默认网络代理人
= rlDQNAgent (observationInfo
,actionInfo
,初始选项
)初始选项
对象。有关初始化选项的更多信息,请参见rlAgentInitializationOptions
.
使用为DQN代理设置的默认选项创建具有指定网络的DQN代理。代理人
= rlDQNAgent (批评家
)