rlQValueFunction
描述
对象实现了核反应能量函数的估计值,您可以使用作为一个评论家强化学习代理。核反应能量函数的映射是一个环境observation-action对政策的价值。具体地说,它的输出是一个标量表示预期的折扣累积长期奖励当代理人开始从国家对应于给定的观察,执行给定的操作,继续采取行动根据给定的政策。核反应能量函数评论家因此需要环境状态和行动作为输入。当你创建一个rlQValueFunction
评论家,如使用它来创建一个代理rlQAgent
,rlDQNAgent
,rlSARSAAgent
,rlDDPGAgent
,或rlTD3Agent
。创建表示更多的信息,请参阅创建政策和价值功能。
创建
语法
描述
创建了核反应能量函数对象评论家
= rlQValueFunction (选项卡
,observationInfo
,actionInfo
)评论家
与离散行动和观察空间从核反应能量表选项卡
。选项卡
是一个rlTable
对象包含一个表与尽可能多的行数量的观察和尽可能多的列的数量可能的行动。这个函数设置ObservationInfo和ActionInfo的属性评论家
分别的observationInfo
和actionInfo
输入参数,在这种情况下必须标量rlFiniteSetSpec
对象。
输入参数
属性
对象的功能
rlDDPGAgent |
深决定性策略梯度(DDPG)强化学习代理 |
rlTD3Agent |
Twin-delayed深确定性(TD3)政策梯度强化学习代理 |
rlDQNAgent |
深Q-network (DQN)强化学习代理 |
rlQAgent |
q学习的强化学习代理 |
rlSARSAAgent |
撒尔沙强化学习代理 |
rlSACAgent |
软actor-critic (SAC)强化学习代理 |
getValue |
获得估计价值从评论家给定环境的观察和行动 |
getMaxQValue |
获得最大估计价值在所有可能的行动从核反应能量函数评论家与离散的行动空间,鉴于环境观测 |
评估 |
评估函数近似者对象给定的观察(或observation-action)输入数据 |
梯度 |
评价梯度函数近似者对象给定的输入数据观察和行动 |
加速 |
选择加速计算梯度的近似者对象基于神经网络 |
getLearnableParameters |
从代理,获得可学的参数值函数近似者,或政策对象 |
setLearnableParameters |
设置代理可学的参数值,函数近似者,或政策对象 |
setModel |
集函数近似模型的演员或评论家 |
getModel |
从演员或评论家得到函数近似者模型 |
例子
版本历史
介绍了R2022a