rlMDPEnv

为强化学习创造马尔可夫决策过程的环境

自从R2019a

描述

马尔可夫决策过程(MDP)是一个离散时间随机控制的过程。它提供了一个数学建模框架决策结果的情况下部分随机,部分的控制下决策者。mdp是有用的利用强化学习研究优化问题的解决。使用rlMDPEnv创建一个马尔可夫决策过程强化学习在MATLAB环境^®。

创建

语法

env = rlMDPEnv (MDP)

描述

例子

env= rlMDPEnv (MDP)创建一个强化的学习环境env与指定的MDP模型。

输入参数

全部展开

`MDP`- - - - - -马尔可夫决策过程模型
`GridWorld`对象|`GenericMDP`对象

马尔可夫决策过程模型,指定为以下之一:

GridWorld对象创建使用createGridWorld。
GenericMDP对象创建使用createMDP。

属性

全部展开

`模型`- - - - - -马尔可夫决策过程模型
`GridWorld`对象|`GenericMDP`对象

马尔可夫决策过程模型,指定为一个GridWorld对象或GenericMDP对象。

`ResetFcn`- - - - - -重置功能
函数处理

重置功能,指定为一个函数处理。

对象的功能

`getActionInfo`	从强化学习环境,获得行动数据规范代理或经验缓冲区
`getObservationInfo`	从强化学习环境,获得观测数据规范代理或经验缓冲区
`sim卡`	模拟训练强化学习代理在指定的环境中
`火车`	强化学习培训代理在指定的环境中
`validateEnvironment`	验证自定义强化学习环境

例子

全部折叠

创建网格世界环境

打开生活的脚本

对于这个示例,考虑5-by-5电网世界使用以下规则:

5-by-5网格边界,有界的世界4可能的行动(= 1,南北= 2,= 3,东部西= 4)。
代理从细胞开始(2,1)(第二行,第一列)。
代理收到奖励+ 10,如果它到达终端状态细胞(5,5)(蓝色)。
环境包含一个特殊的从细胞(2、4)细胞(4,4)+ 5的奖励。
代理被障碍细胞[3 3],[3,4],[3,5]和[4 3](黑细胞)。
所有其他行为导致1奖励。

首先,创建一个GridWorld对象使用createGridWorld函数。

GW = createGridWorld (5,5)

GW = GridWorld属性:GridSize: 5[5]现状后:“[1]”状态:[25 x1字符串]行动:[4 x1字符串)师:[25 x25x4双]R: [25 x25x4双]ObstacleStates: [0 x1字符串]TerminalStates: [0 x1字符串]ProbabilityTolerance: 8.8818 e-16

现在,设置初始,终端和障碍。

GW。现状后=(2,1)的;GW。TerminalStates =“[5,5]”;GW。ObstacleStates = [“[3 3]”;“[3,4]”;“[3,5]”;“[4 3]”];

更新状态和状态转移矩阵的障碍设置障碍跳统治的国家。

updateStateTranstionForObstacles (GW) GW.T (state2idx(吉瓦,”“(2、4))::)= 0;GW.T (state2idx(吉瓦,”“(2、4)),state2idx(吉瓦,“(4,4)”):)= 1;

接下来,定义的奖励奖励转移矩阵。

nS =元素个数(GW.States);nA =元素个数(GW.Actions);GW。R = 1 * 1 (nS, nS, nA);GW.R (state2idx(吉瓦,”“(2、4)),state2idx(吉瓦,“(4,4)”):)= 5;GW.R (:, state2idx (GW, GW.TerminalStates):) = 10;

现在,使用rlMDPEnv创建一个网格世界环境使用GridWorld对象吉瓦。

env = rlMDPEnv (GW)

env = rlMDPEnv属性:模型:[1 x1 rl.env。GridWorld] ResetFcn: []

你可以想象世界网格环境中使用情节函数。

情节(env)

rlMDPEnv

描述

创建

语法

描述

输入参数

`MDP`- - - - - -马尔可夫决策过程模型
`GridWorld`对象|`GenericMDP`对象

属性

`模型`- - - - - -马尔可夫决策过程模型
`GridWorld`对象|`GenericMDP`对象

`ResetFcn`- - - - - -重置功能
函数处理

对象的功能

例子

创建网格世界环境

版本历史

另请参阅

功能

主题

rlMDPEnv

描述

创建

语法

描述

输入参数

MDP- - - - - -马尔可夫决策过程模型GridWorld对象|GenericMDP对象

属性

模型- - - - - -马尔可夫决策过程模型GridWorld对象|GenericMDP对象

ResetFcn- - - - - -重置功能函数处理

对象的功能

例子

创建网格世界环境

版本历史

另请参阅

功能

主题

`MDP`- - - - - -马尔可夫决策过程模型
`GridWorld`对象|`GenericMDP`对象

`模型`- - - - - -马尔可夫决策过程模型
`GridWorld`对象|`GenericMDP`对象

`ResetFcn`- - - - - -重置功能
函数处理