主要内容

rlMDPEnv

为强化学习创造马尔可夫决策过程的环境

自从R2019a

描述

马尔可夫决策过程(MDP)是一个离散时间随机控制的过程。它提供了一个数学建模框架决策结果的情况下部分随机,部分的控制下决策者。mdp是有用的利用强化学习研究优化问题的解决。使用rlMDPEnv创建一个马尔可夫决策过程强化学习在MATLAB环境®

创建

描述

例子

env= rlMDPEnv (MDP)创建一个强化的学习环境env与指定的MDP模型。

输入参数

全部展开

马尔可夫决策过程模型,指定为以下之一:

属性

全部展开

马尔可夫决策过程模型,指定为一个GridWorld对象或GenericMDP对象。

重置功能,指定为一个函数处理。

对象的功能

getActionInfo 从强化学习环境,获得行动数据规范代理或经验缓冲区
getObservationInfo 从强化学习环境,获得观测数据规范代理或经验缓冲区
sim卡 模拟训练强化学习代理在指定的环境中
火车 强化学习培训代理在指定的环境中
validateEnvironment 验证自定义强化学习环境

例子

全部折叠

对于这个示例,考虑5-by-5电网世界使用以下规则:

  1. 5-by-5网格边界,有界的世界4可能的行动(= 1,南北= 2,= 3,东部西= 4)。

  2. 代理从细胞开始(2,1)(第二行,第一列)。

  3. 代理收到奖励+ 10,如果它到达终端状态细胞(5,5)(蓝色)。

  4. 环境包含一个特殊的从细胞(2、4)细胞(4,4)+ 5的奖励。

  5. 代理被障碍细胞[3 3],[3,4],[3,5]和[4 3](黑细胞)。

  6. 所有其他行为导致1奖励。

首先,创建一个GridWorld对象使用createGridWorld函数。

GW = createGridWorld (5,5)
GW = GridWorld属性:GridSize: 5[5]现状后:“[1]”状态:[25 x1字符串]行动:[4 x1字符串)师:[25 x25x4双]R: [25 x25x4双]ObstacleStates: [0 x1字符串]TerminalStates: [0 x1字符串]ProbabilityTolerance: 8.8818 e-16

现在,设置初始,终端和障碍。

GW。现状后=(2,1)的;GW。TerminalStates =“[5,5]”;GW。ObstacleStates = [“[3 3]”;“[3,4]”;“[3,5]”;“[4 3]”];

更新状态和状态转移矩阵的障碍设置障碍跳统治的国家。

updateStateTranstionForObstacles (GW) GW.T (state2idx(吉瓦,”“(2、4))::)= 0;GW.T (state2idx(吉瓦,”“(2、4)),state2idx(吉瓦,“(4,4)”):)= 1;

接下来,定义的奖励奖励转移矩阵。

nS =元素个数(GW.States);nA =元素个数(GW.Actions);GW。R = 1 * 1 (nS, nS, nA);GW.R (state2idx(吉瓦,”“(2、4)),state2idx(吉瓦,“(4,4)”):)= 5;GW.R (:, state2idx (GW, GW.TerminalStates):) = 10;

现在,使用rlMDPEnv创建一个网格世界环境使用GridWorld对象吉瓦

env = rlMDPEnv (GW)
env = rlMDPEnv属性:模型:[1 x1 rl.env。GridWorld] ResetFcn: []

你可以想象世界网格环境中使用情节函数。

情节(env)

版本历史

介绍了R2019a