rlQValueRepresentation
(不推荐)用于强化学习代理的Q-Value函数批评表示
rlQValueRepresentation
不建议使用。使用rlQValueFunction
或rlVectorQValueFunction
代替。有关更多信息,请参见不建议使用rlQValueRepresentation.
描述
该对象实现了一个q值函数逼近器,用于在强化学习代理中作为批评。q值函数是一个将观察-动作对映射到一个标量值的函数,该标量值表示代理从给定的观察开始并执行给定的动作时期望积累的预期总长期奖励。因此,q值函数评论家需要观察和行动作为输入。在创建一个rlQValueRepresentation
评论家,使用它来创建依赖于q值函数评论家的代理,例如rlQAgent
,rlDQNAgent
,rlSARSAAgent
,rlDDPGAgent
,或rlTD3Agent
.有关创建表示的详细信息,请参见创建策略和值函数.
创建
语法
描述
标量输出q值批评家
创建q值函数评论家
= rlQValueRepresentation (网
,observationInfo
,actionInfo
“观察”,obsName
“行动”,actName
)评论家
.网
深度神经网络被用作一个逼近器,并且必须有观察和动作作为输入,和一个单一的标量输出。此语法设置ObservationInfo而且ActionInfo的属性评论家
分别对应于输入observationInfo
而且actionInfo
,包括观察结果和行动说明。obsName
必须包含的输入层的名称网
与观察规范相关的。动作名actName
必须是输入层的名称吗网
这与动作规范相关联。
创建基于q值的函数评论家
= rlQValueRepresentation (选项卡
,observationInfo
,actionInfo
)评论家
与离散的行动和观察空间从q值表选项卡
.选项卡
是一个rlTable
对象,该对象包含一个表,其行数与可能的观察值相同,列数与可能的操作相同。此语法设置ObservationInfo而且ActionInfo的属性评论家
分别对应于输入observationInfo
而且actionInfo
,这肯定是rlFiniteSetSpec
对象,分别包含离散观察空间和操作空间的规范。
创建一个基于q值的函数评论家
= rlQValueRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)评论家
使用自定义基函数作为底层逼近器。第一个输入参数是一个包含两个元素的单元格,其中第一个元素包含句柄basisFcn
到自定义基函数,第二个元素包含初始权值向量W0
.这里基函数必须同时有观测值和动作作为输入W0
一定是列向量。此语法设置ObservationInfo而且ActionInfo的属性评论家
分别对应于输入observationInfo
而且actionInfo
.
多输出离散动作空间q值批评家
创建多输出核反应能量函数评论家
= rlQValueRepresentation (网
,observationInfo
,actionInfo
“观察”,obsName
)评论家
对于离散作用空间.网
深度神经网络被用作近似器,并且必须只有观察数据作为输入,并且单个输出层具有与可能的离散动作数量相同的元素。此语法设置ObservationInfo而且ActionInfo的属性评论家
分别对应于输入observationInfo
而且actionInfo
,包括观察结果和行动说明。在这里,actionInfo
一定是rlFiniteSetSpec
对象,该对象包含离散操作空间的规范。观察名称obsName
必须是输入层的名称吗网
.
创建多输出核反应能量函数评论家
= rlQValueRepresentation ({basisFcn
,W0
},observationInfo
,actionInfo
)评论家
对于离散作用空间使用自定义基函数作为底层逼近器。第一个输入参数是一个包含两个元素的单元格,其中第一个元素包含句柄basisFcn
到自定义基函数,而第二个元素包含初始权值矩阵W0
.这里基函数必须只有观测值作为输入,并且W0
必须有与可能的操作数量一样多的列。此语法设置ObservationInfo而且ActionInfo的属性评论家
分别对应于输入observationInfo
而且actionInfo
.
选项
基于此创建值函数评论家
= rlQValueRepresentation (___,选项
)评论家
使用附加选项集选项
,这是一个rlRepresentationOptions
对象。此语法设置选项的属性评论家
到选项
输入参数。您可以将此语法用于前面的任何输入-参数组合。
输入参数
属性
对象的功能
rlDDPGAgent |
深度确定性策略梯度(DDPG)强化学习代理 |
rlTD3Agent |
双延迟深度确定性策略梯度强化学习代理 |
rlDQNAgent |
深度q网络(Deep Q-network, DQN)强化学习剂 |
rlQAgent |
Q-learning强化学习代理 |
rlSARSAAgent |
SARSA强化学习剂 |
rlSACAgent |
软演员-评论家强化学习代理 |
getValue |
根据环境观察和行动,从评论家那里获得估计值 |
getMaxQValue |
在给定环境观测的情况下,从具有离散动作空间的q值函数评论家获得所有可能动作的最大估计值 |