创建自定义网格的世界环境
世界是一个二维网格,基于单元的环境中,代理从一个细胞,走向终端细胞收集尽可能多的回报。网格世界环境是有用的应用强化学习算法来发现最优路径和政策在网格代理到达终端的最少的移动目标。
强化学习工具箱™允许您创建定制的MATLAB®网格世界为您自己的应用程序环境。创建一个定制的网格世界环境:
创建网格世界模型。
配置网格世界模型。
使用网格的网格模型来创建自己的世界环境。
网格世界模型
您可以创建自己的网格世界模型使用createGridWorld
函数。创建时指定网格大小GridWorld
模型对象。
的GridWorld
对象具有以下属性。
财产 | 只读 | 描述 | ||||||
---|---|---|---|---|---|---|---|---|
GridSize |
是的 | 维网格的世界,作为一个显示米——- - - - - -n数组中。在这里,米代表和网格的行数n是网格的数量列。 |
||||||
现状后 |
没有 | 代理的当前状态,指定为一个字符串。您可以使用这个属性来设置代理的初始状态。代理总是从细胞开始 代理开始的 |
||||||
州 |
是的 | 一个字符串向量包含网格的国家名字的世界。例如,对于一个2×2网格世界模型 GW。州= [“(1)”;“(2,1)”;“[1,2]”;“(2,2)”]; |
||||||
行动 |
是的 | 一个字符串向量包含可能的行动,代理可以使用列表。你可以设置当您创建网格世界模型的操作使用 GW = createGridWorld (m, n,移动) 指定
|
||||||
T |
没有 | 状态转移矩阵,指定为一个三维数组。
例如,考虑一个5-by-5确定性网格对象世界 northStateTransition = GW.T (:: 1) 从上面的图,的价值 |
||||||
R |
没有 | 奖励转移矩阵,指定为一个三维数组。 奖励转移矩阵
设置 |
||||||
ObstacleStates |
没有 |
黑色细胞障碍状态,您可以使用以下语法指定它们: GW。ObstacleStates = [“[3 3]”;“[3,4]”;“[3,5]”;“[4 3]”]; 对于一个工作流实例,明白了强化学习培训代理基本网格的世界。 |
||||||
TerminalStates |
没有 |
GW。TerminalStates = "[5,5]"; 对于一个工作流实例,明白了强化学习培训代理基本网格的世界。 |
网格的世界环境
您可以创建一个马尔可夫决策过程(MDP)环境中使用rlMDPEnv
从电网上一步的世界模型。MDP是一个离散时间随机控制的过程。它提供了一个数学建模框架决策结果的情况下部分随机,部分的控制下决策者。代理使用网格世界环境对象rlMDPEnv
与世界网格模型对象进行交互GridWorld
。
有关更多信息,请参见rlMDPEnv
和强化学习培训代理基本网格的世界。
另请参阅
createGridWorld
|rlMDPEnv
|rlPredefinedEnv