rlQValueFunction
强化学习代理的q值函数逼近对象
描述
该对象实现了一个q值函数逼近器,您可以将其用作强化学习代理的批评。q值函数将环境状态-动作对映射到表示代理从给定状态开始并执行给定动作时预测的折现累积长期奖励的标量值。因此,q值函数评论家需要环境状态和操作作为输入。在创建一个rlQValueFunction
评论家,用它来创建一个代理如rlQAgent
,rlDQNAgent
,rlSARSAAgent
,rlDDPGAgent
,或rlTD3Agent
.有关创建表示的详细信息,请参见创建策略和值函数.
创建
语法
描述
创建q值函数对象评论家
= rlQValueFunction (选项卡
,observationInfo
,actionInfo
)评论家
与离散的行动和观察空间从q值表选项卡
.选项卡
是一个rlTable
对象,该对象包含一个表,其行数与可能的观察数相同,列数与可能的操作数相同。函数设置ObservationInfo而且ActionInfo的属性评论家
分别到observationInfo
而且actionInfo
输入参数,在本例中必须为标量rlFiniteSetSpec
对象。
输入参数
属性
对象的功能
rlDDPGAgent |
深度确定性策略梯度(DDPG)强化学习代理 |
rlTD3Agent |
双延迟深度确定性策略梯度强化学习代理 |
rlDQNAgent |
深度q网络(Deep Q-network, DQN)强化学习剂 |
rlQAgent |
Q-learning强化学习代理 |
rlSARSAAgent |
SARSA强化学习剂 |
rlSACAgent |
软演员-评论家强化学习代理 |
getValue |
根据环境观察和行动,从评论家那里获得估计值 |
getMaxQValue |
在给定环境观测的情况下,从具有离散动作空间的q值函数评论家获得所有可能动作的最大估计值 |
评估 |
给定观测(或观测-动作)输入数据,求函数逼近对象 |
梯度 |
给定观测和动作输入数据,求函数逼近对象的梯度 |
加速 |
基于神经网络的逼近对象梯度加速计算选项 |
getLearnableParameters |
从代理、函数逼近器或策略对象获取可学习的参数值 |
setLearnableParameters |
设置agent、函数逼近器或策略对象的可学习参数值 |
setModel |
为演员或评论家设置函数逼近模型 |
getModel |
从演员或评论家那里得到函数逼近器模型 |
例子
版本历史
R2022a中引入