深度确定性政策梯度加固学习代理
深度确定性政策梯度(DDPG)算法是一个演员 - 评论家,无模型,在线,禁止策略加强学习方法,这些禁止措施方法计算了最大化长期奖励的最佳政策。动作空间只能是连续的。
有关更多信息,请参见深度确定性策略梯度代理.有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
创建一个用于给定的观察和操作规范的环境中的深确定性政策梯度剂,使用缺省初始化选项。在代理使用默认的演员和评论家表示深层神经网络从观测规范构建代理人
= rlDDPGAgent (观察税收
那ActionInfo.
)观察税收
和行动规范ActionInfo.
.
为具有给定观察和操作规范的环境创建一个深度确定性策略梯度代理。属性中指定的选项配置的默认网络代理人
= rlDDPGAgent (观察税收
那ActionInfo.
那初学者
)初学者
对象。有关初始化选项的详细信息,请参阅rlagentinitializationOptions.
.
创建一个DDPG剂,并设置代理人
= rlDDPGAgent (___那agentOptions
)代理选项
属性设置agentOptions
输入参数。在上一个语法中的任何输入参数后使用此语法。
训练 |
火车加固规定的环境内学习代理商 |
SIM卡 |
在指定环境中模拟培训的钢筋学习代理 |
的getAction |
获得代理或演员表示给定的环境观测行动 |
getActor |
从强化学习代理中获得角色表示 |
setActor |
设置钢筋学习代理的演员代表 |
getCritic |
从强化学习代理人获取评论家表示 |
setCritic |
强化学习剂套装评论家表示 |
generatePolicyFunction |
创建评估强化学习代理的训练策略的函数 |
深层网络设计师|rlagentinitializationOptions.
|rlDDPGAgentOptions
|RLDETerminyActorRepresentation
|rlqvalueerepresentation