主要内容

rltable.

值表或Q表

描述

价值表和Q表是代表批评批评资料的一种方法来代表加强学习。价值表存储奖励为有限一套观察。Q表存储相应的有限观察操作对的奖励。

使用a创建值函数表示rltable.对象,使用一个rlvaluerepresentationrlqvalueerepresentation对象。

创建

描述

例子

T.= rltable(obsinfo.的)为给定的离散观察创建一个值表。

例子

T.= rltable(obsinfo.Actinfo.的)为给定的离散观察和动作创建一个Q表。

输入参数

展开全部

观察规范,指定为一个rlfinitesetspec.对象。

行动规范,指定为一个rlfinitesetspec.对象。

特性

展开全部

奖励表,作为阵列返回。什么时候桌子是:

  • 值表,它包含N.O.行,哪里N.O.是有限观察值的数量。

  • Q表,它包含N.O.行和N.一种列,N.一种是可能的有限行为的数量。

对象功能

rlvaluerepresentation 增强学习代理的价值函数评论家代表
rlqvalueerepresentation Q-Value Function评论家为加固学习代理商表示

例子

全部收缩

此示例显示了如何使用rltable.创建值表。您可以使用这样一个表来表示具有有限观察空间的演员-评论家代理的评论家。

创建环境界面,并获得其观察规范。

ent = rlpredefinedenv(“basicgridworld”);ObsInfo = getobservationInfo(Env)
具有属性的ObsInfo = rlfinitesetspec:元素:[25x1 double]名称:“MDP观察”描述:[0x0字符串]尺寸:[1 1]数据类型:“double”

使用观察规范创建值表。

VTABLE = RLTABLE(OBSINFO)
VTABLE =具有属性的RLTABLE:表:[25x1双]

此示例显示了如何使用rltable.创建一个Q表。这种表可用于代表具有有限观察和动作空间的代理商的演员或批评者。

创建环境界面,并获得其观察和操作规范。

env = rlmdpenv(createmdp(8,[“向上”;“下”]));ObsInfo = getobservationInfo(Env)
obsInfo = rlFiniteSetSpec with properties: Elements: [8x1 double] Name: "MDP Observations" Description: [0x0 string] Dimension: [1 1] DataType: "double"
Actinfo = GetActionInfo(ENV)
ActInfo = rlfinitesetspec具有属性:元素:[2x1 double]名称:“MDP操作”描述:[0x0字符串]尺寸:[1 1]数据类型:“双”

使用观察和操作规范创建Q表。

qtable = rltable(Obsinfo,Actinfo)
qtable =带有属性的rltable:表:[8x2 double]

也可以看看

在R2019A引入