强化学习主体的q值函数批判表示
该对象实现一个Q值函数逼近器,用作强化学习代理中的批评家。Q值函数是一个函数,它将观察动作对映射为一个标量值,该标量值表示当代理从给定的观察开始并执行给定的动作时,期望累积的预期长期总回报。因此,Q值函数批评家需要观察和行动作为输入。创建一个rlQValueRepresentation
批评家,用它来创建一个依赖于q值函数批评家的代理,例如rlQAgent
,rlDQNAgent
,rlSARSAAgent
,RLDDPG试剂
或RLTD3试剂
。有关创建表达的详细信息,请参见创建策略和值函数表示.
创建了q值函数批评家
=rlQValueRepresentation(净
,观测信息
,行动信息
","观察",,obsName
“行动”,actName
)批评家
.净
是用作近似器的深度神经网络,必须将观测值和动作作为输入,并具有单个标量输出ObservationInfo和ActionInfo的属性批评家
分别对应于输入观测信息
和行动信息
,包含观察结果和行动规范。obsName
必须包含的输入层的名称净
与观察规范关联的。操作名称actName
必须是的输入层的名称净
与操作规范相关联的。
创建基于q值的函数批评家
=rlQValueRepresentation(选项卡
,观测信息
,行动信息
)批评家
与离散作用空间与观测空间从Q值表中选项卡
.选项卡
是一个rlTable
对象,该对象包含一个表,其中包含尽可能多的行和尽可能多的列和可能的操作。该语法设置ObservationInfo和ActionInfo的属性批评家
分别对应于输入观测信息
和行动信息
,必须是rlFiniteSetSpec
分别包含离散观察和行动空间的规范的对象。
创建一个基于q值的函数批评家
=rlQValueRepresentation({basisFcn
,W0
},观测信息
,行动信息
)批评家
使用自定义基函数作为底层逼近器。第一个输入参数是一个包含两个元素的单元格,其中第一个元素包含句柄basisFcn
到自定义基函数,第二个元素包含初始权值向量W0
.在这里,基本函数必须既有观测值又有作为输入的动作W0
必须是列向量。此语法设置ObservationInfo和ActionInfo的属性批评家
分别对应于输入观测信息
和行动信息
.
创建多输出Q值函数批评家
=rlQValueRepresentation(净
,观测信息
,行动信息
","观察",,obsName
)批评家
对于离散动作空间.净
是作为近似器使用的深度神经网络,必须只有观测值作为输入,而单个输出层具有尽可能多的可能离散动作的元素数量。该语法设置ObservationInfo和ActionInfo的属性批评家
分别对应于输入观测信息
和行动信息
,包含观察结果和行动规范。此处,行动信息
必须是一个rlFiniteSetSpec
对象,该对象包含离散动作空间的规范。观察的名字obsName
的输入层的名称净
.
创建多输出Q值函数批评家
=rlQValueRepresentation({basisFcn
,W0
},观测信息
,行动信息
)批评家
对于离散动作空间使用自定义基函数作为底层逼近器。第一个输入参数是一个包含两个元素的单元格,其中第一个元素包含句柄basisFcn
为自定义基函数,第二个元素包含初始权矩阵W0
.这里的基函数必须只有观测值作为输入W0
必须具有尽可能多的列(与可能的操作数相同)。此语法设置ObservationInfo和ActionInfo的属性批评家
分别对应于输入观测信息
和行动信息
.
创建基于的值函数批评家
=rlQValueRepresentation(___,选择权
)批评家
使用附加选项集选择权
,这是一个rlRepresentationOptions
对象。该语法设置选择权的属性批评家
到选择权
输入参数。您可以将此语法与以前的任何输入参数组合一起使用。
RLDDPG试剂 |
深度确定性策略梯度强化学习agent |
RLTD3试剂 |
双延迟深度确定性策略梯度强化学习主体 |
rlDQNAgent |
深度q -网络强化学习代理 |
rlQAgent |
Q-learning强化学习代理 |
rlSARSAAgent |
SARSA强化学习代理 |
rlSACAgent |
软演员批评强化学习代理 |
getValue |
获得估计值函数表示 |
getMaxQValue |
离散作用空间Q值函数表示的最大状态值函数估计 |