主要内容

创建自定义网格的世界环境

世界是一个二维网格,基于单元的环境中,代理从一个细胞,走向终端细胞收集尽可能多的回报。网格世界环境是有用的应用强化学习算法来发现最优路径和政策在网格代理到达终端的最少的移动目标。

强化学习工具箱™允许您创建定制的MATLAB®网格世界为您自己的应用程序环境。创建一个定制的网格世界环境:

  1. 创建网格世界模型。

  2. 配置网格世界模型。

  3. 使用网格的网格模型来创建自己的世界环境。

网格世界模型

您可以创建自己的网格世界模型使用createGridWorld函数。创建时指定网格大小GridWorld模型对象。

GridWorld对象具有以下属性。

财产 只读 描述
GridSize 是的

维网格的世界,作为一个显示——- - - - - -n数组中。在这里,代表和网格的行数n是网格的数量列。

现状后 没有

代理的当前状态,指定为一个字符串。您可以使用这个属性来设置代理的初始状态。代理总是从细胞开始[1]默认情况下。

代理开始的现状后一旦你使用复位功能rlMDPEnv环境对象。

是的

一个字符串向量包含网格的国家名字的世界。例如,对于一个2×2网格世界模型吉瓦指定以下:

GW。州= [“(1)”;“(2,1)”;“[1,2]”;“(2,2)”];
行动 是的

一个字符串向量包含可能的行动,代理可以使用列表。你可以设置当您创建网格世界模型的操作使用移动论点:

GW = createGridWorld (m, n,移动)

指定移动作为“标准”“国王”

移动 Gw.Actions
“标准” [' N '; ' S ' E '; ' W ']
“国王” [' N ',“S”;“E”;“W”;“东北”;“西北”;“SE”;“西南”)
T 没有

状态转移矩阵,指定为一个三维数组。T是一个概率矩阵表明代理从当前状态的可能性年代任何可能的下一个状态年代通过执行行动一个

T可以表示为

T ( 年代 , 年代 , 一个 ) = p r o b 一个 b l t y ( 年代 | 年代 , 一个 )

例如,考虑一个5-by-5确定性网格对象世界吉瓦代理的细胞(3,1)。北方向视图的状态转移矩阵。

northStateTransition = GW.T (:: 1)

从上面的图,的价值northStateTransition (2)1,因为代理从细胞(3,1)细胞(2,1)用行动“N”。1表明,从一个给定的状态的概率,如果代理北,它有100%的机会,从一个细胞北网格。为一个例子,演示如何设置状态转移矩阵,明白了强化学习培训代理基本网格的世界

R 没有

奖励转移矩阵,指定为一个三维数组。R决定了奖励代理接收环境中执行一个动作之后。R有相同的形状和大小的状态转移矩阵T

奖励转移矩阵R可以表示为

r = R ( 年代 , 年代 , 一个 )

设置R这样有一个奖励每个动作后代理。例如,您可以设置一个积极的奖励如果代理转换障碍状态,当它到达终端状态。你也可以设置一个默认奖励-11为所有操作代理,独立于当前状态和下一状态。为例,展示了如何设置奖励转移矩阵,明白了强化学习培训代理基本网格的世界

ObstacleStates 没有

ObstacleStates州,不能达到网格中的世界,指定为一个字符串向量。考虑以下5-by-5网格世界模型吉瓦

黑色细胞障碍状态,您可以使用以下语法指定它们:

GW。ObstacleStates = [“[3 3]”;“[3,4]”;“[3,5]”;“[4 3]”];

对于一个工作流实例,明白了强化学习培训代理基本网格的世界

TerminalStates 没有

TerminalStates最终状态网格中的世界,指定为一个字符串向量。考虑前面5-by-5网格世界模型吉瓦。蓝色的细胞是终端状态,您可以指定:

GW。TerminalStates = "[5,5]";

对于一个工作流实例,明白了强化学习培训代理基本网格的世界

网格的世界环境

您可以创建一个马尔可夫决策过程(MDP)环境中使用rlMDPEnv从电网上一步的世界模型。MDP是一个离散时间随机控制的过程。它提供了一个数学建模框架决策结果的情况下部分随机,部分的控制下决策者。代理使用网格世界环境对象rlMDPEnv与世界网格模型对象进行交互GridWorld

有关更多信息,请参见rlMDPEnv强化学习培训代理基本网格的世界

另请参阅

||

相关的话题