rltable.

值表或Q表

展开所有页面

描述

价值表和Q表是代表批评批评批评学习的一种方式。价值表存储有限一套观测的奖励。Q表存储相应有限观察操作对的奖励。

使用a创建值函数表示rltable.对象，使用一个rlvalueerepresentation或者rlqvalueerepresentation目的。

创建

句法

t = rltable（obsinfo）

t = rltable（Obsinfo，Actinfo）

描述

例子

T.= rltable（obsinfo.）为给定的离散观察创建一个值表。

例子

T.= rltable（obsinfo.那Actinfo.）为给定的离散观察和行动创建一个Q表。

输入参数

展开全部

`obsinfo.`-观察说明书
`rlfinitesetspec.`目的

观察规范，指定为一个rlfinitesetspec.目的。

`Actinfo.`-行动规范
`rlfinitesetspec.`目的

操作规范，指定为一个rlfinitesetspec.目的。

特性

展开全部

`桌子`-奖励表
大批

奖励表，作为数组返回。什么时候桌子是：

值表，它包含N_O.行，在哪里N_O.是有限观察值的数量。
q表，它包含N_O.行和N_一种列，其中N_一种是可能有限行动的数量。

对象功能

`rlvalueerepresentation`	增强学习代理的价值函数批评者表示
`rlqvalueerepresentation`	Q-Value Function评论家强化学习代理的代表

例子

全部收缩

创建一个值表

打开直播脚本

此示例显示了如何使用rltable.创建值表。您可以使用这样的表格代表参与者批评者的批评者，具有有限的观察空间。

创建环境界面，并获得其观察规范。

Env = Rlpredefinedenv（“basicgridworld”）;ObsInfo = getobservationInfo（ENV）

ObsInfo = RLFInitesetsPec具有属性：元素：[25x1 double]名称：“MDP观察”描述：[0x0字符串]尺寸：[1 1]数据类型：“double”

使用观察规范创建值表。

VTABLE = RLTABLE（OBSINFO）

VTABLE =具有属性的RLTABLE：表：[25x1双]

创建一个Q表

打开直播脚本

此示例显示了如何使用rltable.创建一个Q表。这种表可用于代表具有有限观察和动作空间的代理商的演员或批评者。

创建环境界面，并获得其观察和操作规范。

ent = rlmdpenv（createmdp（8，[“向上”;“下”]））;ObsInfo = getobservationInfo（ENV）

obsinfo = rlfinitesetspec与属性：元素：[8x1 double]名称：“MDP观察”描述：[0x0字符串]尺寸：[1 1]数据类型：“double”

Actinfo = GetActionInfo（ENV）

ACTINFO = RLFINITESETSPEC具有属性：元素：[2x1 double]名称：“MDP操作”描述：[0x0字符串]尺寸：[1 1]数据类型：“DOUBLE”

使用观察和操作规范创建Q表。

QTable = RLTable（ObsInfo，Actinfo）

qtable =带有属性的rltable：表：[8x2 double]

也可以看看

话题

创建策略和值函数表示

在R2019A介绍

强化学习工具箱文档

金宝app

用Matlab和Simulink加强学习金宝app

下载电子书