主要内容

rlTable

值表或Q表

描述

值表和Q表是表示强化学习的评价网络的一种方法。值表存储有限组观察的奖励。Q表存储相应有限观察-动作对的奖励。

方法创建值函数表示形式rlTable对象,使用rlValueRepresentationrlQValueRepresentation对象。

创建

描述

例子

T= rlTable (obsinfo为给定的离散观测值创建一个值表。

例子

T= rlTable (obsinfoactinfo为给定的离散观察和操作创建一个Q表。

输入参数

全部展开

观察规范,指定为rlFiniteSetSpec对象。

动作规范,指定为rlFiniteSetSpec对象。

属性

全部展开

奖励表,作为数组返回。当表格是一个:

  • 值表,它包含NO行,NO是有限观测值的个数。

  • Q表,它包含NO行和N一个列,N一个是可能的有限动作的数量。

对象的功能

rlValueRepresentation 强化学习代理的价值函数批评表示
rlQValueRepresentation 强化学习智能体的q值函数批评表示

例子

全部折叠

这个例子展示了如何使用rlTable创建一个值表。您可以使用这样的表来表示具有有限观察空间的行动者-评论家代理的评论家。

创建环境接口,获取其观测规范。

环境= rlPredefinedEnv(“BasicGridWorld”);obsInfo = getObservationInfo(env)
obsInfo = rlFiniteSetSpec与属性:元素:[25x1 double]名称:“MDP观察”描述:[0x0字符串]尺寸:[1 1]数据类型:“double”

使用观察规范创建值表。

vTable = rlTable(obsInfo)
vTable = rlTable,属性为[25x1 double]

这个例子展示了如何使用rlTable创建一个Q表。这样的表可以用来表示具有有限的观察和行动空间的代理的行动者或评论家。

创建环境接口,获取其观察和操作规范。

env = rlMDPEnv (createMDP (8,《飞屋环游记》“向下”)));obsInfo = getObservationInfo(env)
obsInfo = rlFiniteSetSpec与属性:元素:[8x1双]名称:“MDP观察”描述:[0x0字符串]尺寸:[1 1]数据类型:“双”
getActionInfo(env)
actInfo = rlFiniteSetSpec与属性:元素:[2x1双]名称:“MDP动作”描述:[0x0字符串]尺寸:[1 1]数据类型:“双”

使用观察和操作规范创建Q表。

qTable = rlTable(obsInfo,actInfo)
qTable = rlTable,属性为:[8x2 double]

另请参阅

在R2019a中引入