强化学习主体的q值函数批判表示
该对象实现了Q值函数近似器,以在钢筋学习代理中用作批评者。Q值函数是将观察操作对映射到表示预期总计长期奖励的标量值映射的函数,该标量值在从给定的观察开始并执行给定的操作时预期代理程序会累积。因此,Q值函数批评者需要两个观察和动作作为输入。创建一个rlqvalueerepresentation
批评家,用它来创建一个依赖于q值函数批评家的代理,例如rlQAgent
,rlDQNAgent
,萨金特
,rlddpgagent.
, 或者rltd3agent.
。有关创建表达的详细信息,请参见创建策略和值函数表示.
基于属性创建Q值函数评论家
=rlQValueRepresentation(标签
,观察税收
,ActionInfo.
)评论家
具有离散作用空间与观测空间来自Q值表标签
.标签
是一个rltable.
对象,该对象包含一个表,该表包含尽可能多的行和尽可能多的列观测信息和行动信息特性评论家
分别对应于输入观察税收
和ActionInfo.
,必须是rlFiniteSetSpec
分别包含离散观测和动作空间规范的对象。
创建多输出Q值函数评论家
=rlQValueRepresentation(网
,观察税收
,ActionInfo.
,'观察',obsname.
)评论家
对于离散动作空间.网
是作为近似器使用的深度神经网络,必须只有观测值作为输入,而单个输出层具有尽可能多的可能离散动作的元素数量。该语法设置观测信息和行动信息特性评论家
分别对应于输入观察税收
和ActionInfo.
,包含观察结果和行动规范。此处,ActionInfo.
一定是一个rlFiniteSetSpec
包含离散动作空间规范的对象。观察名称obsname.
必须是的输入层的名称网
.
创建基于属性的值函数评论家
=rlQValueRepresentation(___,选择权
)评论家
使用附加选项集选择权
,这是一个rlRepresentationOptions
此语法设置选择权的属性评论家
到选择权
输入参数。您可以使用任何以前的Infux-Argument组合使用此语法。
rlddpgagent. |
深度确定性政策梯度加固学习代理 |
rltd3agent. |
双延迟深层确定性策略梯度强化学习agent |
rlDQNAgent |
深度q -网络强化学习代理 |
rlQAgent |
Q-learning强化学习代理 |
萨金特 |
SARSA强化学习代理 |
rlSACAgent |
软演员批评强化学习代理 |
getValue |
获得估计值函数表示 |
getMaxQValue |
离散作用空间Q值函数表示的最大状态值函数估计 |