rlValueFunction
描述
这个对象实现了价值函数近似者对象,您可以使用作为一个评论家强化学习代理。值函数是一个从一个环境观察映射到一个策略的价值。具体地说,它的输出是一个标量表示预期的折扣累积长期奖励当代理人开始从国家对应于给定的观察和执行行动之后根据给定的政策。当你创建一个rlValueFunction
评论家,如使用它来创建一个代理rlACAgent
,rlPGAgent
,或rlPPOAgent
代理。这个工作流程的一个例子,看到创建演员和评论家表示。创造价值函数的更多信息,请参阅创建政策和价值功能。
创建
语法
描述
创建值函数对象评论家
= rlValueFunction (净
,observationInfo
)评论家
使用神经网络净
近似模型,并设置ObservationInfo
的属性评论家
到observationInfo
输入参数。与环境相关的网络输入层自动观测通道根据尺寸规格observationInfo
。
指定网络输入层的名称与环境观测通道。函数分配,按顺序排列的,每个环境观察通道中指定评论家
= rlValueFunction (净
ObservationInputNames =netObsNames
)observationInfo
指定的层相应名称的字符串数组netObsNames
。因此,网络的输入层,命令的名称netObsNames
,必须具有相同的数据类型和维度观察通道,是命令observationInfo
。
创建函数对象的值评论家
= rlValueFunction (选项卡
,observationInfo
)评论家
与一个离散观测空间从表中,选项卡
,这是一个rlTable
对象包含一个列数组和尽可能多的元素的数量可能的观测。这个函数设置ObservationInfo
的属性评论家
到observationInfo
输入参数,在这种情况下,必须是一个标量rlFiniteSetSpec
对象。
指定的设备用于执行计算评论家
= rlValueFunction (___UseDevice =useDevice
)评论家
对象,并设置UseDevice
的属性评论家
到useDevice
输入参数。您可以使用该语法与任何以前的输入参数组合。
输入参数
属性
对象的功能
rlACAgent |
Actor-critic (AC)强化学习代理 |
rlPGAgent |
策略梯度(PG)强化学习代理 |
rlPPOAgent |
近端政策优化(PPO)强化学习代理 |
getValue |
获得估计价值从评论家给定环境的观察和行动 |
评估 |
评估函数近似者对象给定的观察(或observation-action)输入数据 |
梯度 |
评价梯度函数近似者对象给定的输入数据观察和行动 |
加速 |
选择加速计算梯度的近似者对象基于神经网络 |
getLearnableParameters |
从代理,获得可学的参数值函数近似者,或政策对象 |
setLearnableParameters |
设置代理可学的参数值,函数近似者,或政策对象 |
setModel |
集函数近似模型的演员或评论家 |
getModel |
从演员或评论家得到函数近似者模型 |
例子
版本历史
介绍了R2022a