主要内容

rltable.

值表或Q表

描述

价值表和Q表是代表批评批评批评学习的一种方式。价值表存储有限一套观测的奖励。Q表存储相应有限观察操作对的奖励。

使用a创建值函数表示rltable.对象,使用一个rlvalueerepresentation或者rlqvalueerepresentation目的。

创建

描述

例子

T.= rltable(obsinfo.为给定的离散观察创建一个值表。

例子

T.= rltable(obsinfo.Actinfo.为给定的离散观察和行动创建一个Q表。

输入参数

展开全部

观察规范,指定为一个rlfinitesetspec.目的。

操作规范,指定为一个rlfinitesetspec.目的。

特性

展开全部

奖励表,作为数组返回。什么时候桌子是:

  • 值表,它包含NO.行,在哪里NO.是有限观察值的数量。

  • q表,它包含NO.行和N一种列,其中N一种是可能有限行动的数量。

对象功能

rlvalueerepresentation 增强学习代理的价值函数批评者表示
rlqvalueerepresentation Q-Value Function评论家强化学习代理的代表

例子

全部收缩

此示例显示了如何使用rltable.创建值表。您可以使用这样的表格代表参与者批评者的批评者,具有有限的观察空间。

创建环境界面,并获得其观察规范。

Env = Rlpredefinedenv(“basicgridworld”);ObsInfo = getobservationInfo(ENV)
ObsInfo = RLFInitesetsPec具有属性:元素:[25x1 double]名称:“MDP观察”描述:[0x0字符串]尺寸:[1 1]数据类型:“double”

使用观察规范创建值表。

VTABLE = RLTABLE(OBSINFO)
VTABLE =具有属性的RLTABLE:表:[25x1双]

此示例显示了如何使用rltable.创建一个Q表。这种表可用于代表具有有限观察和动作空间的代理商的演员或批评者。

创建环境界面,并获得其观察和操作规范。

ent = rlmdpenv(createmdp(8,[“向上”;“下”]));ObsInfo = getobservationInfo(ENV)
obsinfo = rlfinitesetspec与属性:元素:[8x1 double]名称:“MDP观察”描述:[0x0字符串]尺寸:[1 1]数据类型:“double”
Actinfo = GetActionInfo(ENV)
ACTINFO = RLFINITESETSPEC具有属性:元素:[2x1 double]名称:“MDP操作”描述:[0x0字符串]尺寸:[1 1]数据类型:“DOUBLE”

使用观察和操作规范创建Q表。

QTable = RLTable(ObsInfo,Actinfo)
qtable =带有属性的rltable:表:[8x2 double]

也可以看看

在R2019A介绍