主要内容

rlTable

值表或者Q表

描述

值表和Q表代表批评网络强化学习的一种方式。值表存储奖励一套有限的观测。问表存储相应回报有限observation-action对。

创建一个函数近似者使用一个值rlTable对象,使用一个rlValueFunction,rlQValueFunction,或rlVectorQValueFunction对象。

创建

描述

例子

T= rlTable (obsinfo)创建一个给定离散观测值表。

例子

T= rlTable (obsinfo,actinfo)创建一个给定离散Q表观察和操作。

输入参数

全部展开

观测规范,指定为一个rlFiniteSetSpec对象。

动作规范,指定为一个rlFiniteSetSpec对象。

属性

全部展开

奖励表,作为一个数组返回。当是一个:

  • 值表,它包含NO行,NO是数量有限的观测值。

  • 问表,它包含NO行和N一个列,N一个是可能的数量有限的行动。

对象的功能

rlValueFunction 值函数近似者对象强化学习代理
rlQValueFunction 为强化学习代理核反应能量函数近似者对象
rlVectorQValueFunction 向量核反应能量函数近似者强化学习代理

例子

全部折叠

这个例子展示了如何使用rlTable创建一个值表。您可以使用这样一个表来表示的评论家actor-critic代理有限观测空间。

创建一个环境接口,获取其观测规范。

env = rlPredefinedEnv (“BasicGridWorld”);obsInfo = getObservationInfo (env)
obsInfo = rlFiniteSetSpec属性:元素:[25 x1双]的名字:“MDP观察”描述:[0 x0字符串]维度:[1]数据类型:“替身”

使用观测规范创建表的价值。

vTable = rlTable (obsInfo)
vTable = rlTable属性:表(25:x1双)

这个例子展示了如何使用rlTable创建一个Q表。这样的表可以用来代表一个代理的演员或评论家与有限的观察和行动空间。

创建一个环境接口,获取其观察和操作规范。

env = rlMDPEnv (createMDP (8,《飞屋环游记》;“向下”)));obsInfo = getObservationInfo (env)
obsInfo = rlFiniteSetSpec属性:元素:[8 x1双)名称:“MDP观察”描述:[0 x0字符串]维度:[1]数据类型:“替身”
actInfo = getActionInfo (env)
actInfo = rlFiniteSetSpec属性:元素:[2 x1双)名称:“MDP行动”描述:[0 x0字符串]维度:[1]数据类型:“替身”

创建Q表使用观察和操作规范。

qTable = rlTable (obsInfo actInfo)
qTable = rlTable属性:表:[8 x2双)

版本历史

介绍了R2019a

另请参阅