rlVectorQValueFunction
描述
对象实现了矢量核反应能量函数的估计值,您可以使用作为一个评论家与强化学习代理一个离散的行动空间。矢量核反应能量函数的映射一个环境观测向量的每个元素代表预期的折扣累积长期奖励当代理人开始从国家对应于给定的观察和执行相对应的动作元素数量(后来和遵循一个给定的政策)。一个向量核反应能量函数评论家因此只需要观察作为输入。当你创建一个rlVectorQValueFunction
评论家,如使用它来创建一个代理rlQAgent
,rlDQNAgent
,rlSARSAAgent
。创建表示更多的信息,请参阅创建政策和价值功能。
创建
语法
描述
创建多输出核反应能量函数评论家
= rlVectorQValueFunction (净
,observationInfo
,actionInfo
)评论家
与一个离散行动空间。在这里,净
深层神经网络用作一个近似模型,而且必须只有观察作为输入和一个输出层有尽可能多的元素数量的离散动作。与环境相关的网络输入层自动观测通道根据尺寸规格observationInfo
。这个函数设置ObservationInfo
和ActionInfo
的属性评论家
到observationInfo
和actionInfo
分别输入参数。
指定的名称与环境相关的网络输入层观测通道。函数分配,按顺序排列的,每个环境观察通道中指定评论家
= rlVectorQValueFunction (净
,observationInfo
ObservationInputNames =netObsNames
)observationInfo
指定的层相应名称的字符串数组netObsNames
。因此,网络的输入层,命令的名称netObsNames
,必须具有相同的数据类型和维度观察通道,是命令observationInfo
。
创建多输出核反应能量函数评论家
= rlVectorQValueFunction ({basisFcn
,W0
},observationInfo
,actionInfo
)评论家
与一个离散行动空间基本使用一个自定义的基函数作为近似模型。双元素单元第一个输入参数是一个数组的第一个元素处理basisFcn
自定义基函数和的第二个元素是初始权重矩阵W0
。这里的基函数必须只有观测数据作为输入,和W0
必须有尽可能多的列的数量可能的行动。这个函数设置ObservationInfo和ActionInfo的属性评论家
的输入参数observationInfo
和actionInfo
,分别。
指定的设备用于执行计算评论家
= rlVectorQValueFunction (___UseDevice =useDevice
)评论家
对象,并设置UseDevice
的属性评论家
到useDevice
输入参数。您可以使用该语法与任何以前的输入参数组合。
输入参数
属性
对象的功能
rlDQNAgent |
深Q-network (DQN)强化学习代理 |
rlQAgent |
q学习的强化学习代理 |
rlSARSAAgent |
撒尔沙强化学习代理 |
getValue |
获得估计价值从评论家给定环境的观察和行动 |
getMaxQValue |
获得最大估计价值在所有可能的行动从核反应能量函数评论家与离散的行动空间,鉴于环境观测 |
评估 |
评估函数近似者对象给定的观察(或observation-action)输入数据 |
梯度 |
评价梯度函数近似者对象给定的输入数据观察和行动 |
加速 |
选择加速计算梯度的近似者对象基于神经网络 |
getLearnableParameters |
从代理,获得可学的参数值函数近似者,或政策对象 |
setLearnableParameters |
设置代理可学的参数值,函数近似者,或政策对象 |
setModel |
集函数近似模型的演员或评论家 |
getModel |
从演员或评论家得到函数近似者模型 |
例子
版本历史
介绍了R2022a