rlTable

值表或者Q表

扩展所有的页面

描述

值表和Q表代表批评网络强化学习的一种方式。值表存储奖励一套有限的观测。问表存储相应回报有限observation-action对。

创建一个函数近似者使用一个值rlTable对象,使用一个rlValueFunction,rlQValueFunction,或rlVectorQValueFunction对象。

创建

语法

T = rlTable (obsinfo)

T = rlTable (obsinfo actinfo)

描述

例子

T= rlTable (obsinfo)创建一个给定离散观测值表。

例子

T= rlTable (obsinfo,actinfo)创建一个给定离散Q表观察和操作。

输入参数

全部展开

`obsinfo`- - - - - -观测规范
`rlFiniteSetSpec`对象

观测规范,指定为一个rlFiniteSetSpec对象。

`actinfo`- - - - - -操作规范
`rlFiniteSetSpec`对象

动作规范,指定为一个rlFiniteSetSpec对象。

属性

全部展开

`表`- - - - - -奖励表
数组

奖励表,作为一个数组返回。当表是一个:

值表,它包含N_O行,N_O是数量有限的观测值。
问表,它包含N_O行和N_一个列,N_一个是可能的数量有限的行动。

对象的功能

`rlValueFunction`	值函数近似者对象强化学习代理
`rlQValueFunction`	为强化学习代理核反应能量函数近似者对象
`rlVectorQValueFunction`	向量核反应能量函数近似者强化学习代理

例子

全部折叠

创建一个值表

打开生活的脚本

这个例子展示了如何使用rlTable创建一个值表。您可以使用这样一个表来表示的评论家actor-critic代理有限观测空间。

创建一个环境接口,获取其观测规范。

env = rlPredefinedEnv (“BasicGridWorld”);obsInfo = getObservationInfo (env)

obsInfo = rlFiniteSetSpec属性:元素:[25 x1双]的名字:“MDP观察”描述:[0 x0字符串]维度:[1]数据类型:“替身”

使用观测规范创建表的价值。

vTable = rlTable (obsInfo)

vTable = rlTable属性:表(25:x1双)

创建一个Q表

打开生活的脚本

这个例子展示了如何使用rlTable创建一个Q表。这样的表可以用来代表一个代理的演员或评论家与有限的观察和行动空间。

创建一个环境接口,获取其观察和操作规范。

env = rlMDPEnv (createMDP (8,《飞屋环游记》;“向下”)));obsInfo = getObservationInfo (env)

obsInfo = rlFiniteSetSpec属性:元素:[8 x1双)名称:“MDP观察”描述:[0 x0字符串]维度:[1]数据类型:“替身”

actInfo = getActionInfo (env)

actInfo = rlFiniteSetSpec属性:元素:[2 x1双)名称:“MDP行动”描述:[0 x0字符串]维度:[1]数据类型:“替身”

创建Q表使用观察和操作规范。

qTable = rlTable (obsInfo actInfo)

qTable = rlTable属性:表:[8 x2双)

rlTable

描述

创建

语法

描述

输入参数

`obsinfo`- - - - - -观测规范
`rlFiniteSetSpec`对象

`actinfo`- - - - - -操作规范
`rlFiniteSetSpec`对象

属性

`表`- - - - - -奖励表
数组

对象的功能

例子

创建一个值表

创建一个Q表

版本历史

另请参阅

主题

rlTable

描述

创建

语法

描述

输入参数

obsinfo- - - - - -观测规范rlFiniteSetSpec对象

actinfo- - - - - -操作规范rlFiniteSetSpec对象

属性

表- - - - - -奖励表数组

对象的功能

例子

创建一个值表

创建一个Q表

版本历史

另请参阅

主题

`obsinfo`- - - - - -观测规范
`rlFiniteSetSpec`对象

`actinfo`- - - - - -操作规范
`rlFiniteSetSpec`对象

`表`- - - - - -奖励表
数组