主要内容

网格负载预定义的世界环境

强化学习工具箱™软件世界提供了一些预定义的网格环境的操作,观察,奖励,和动力学已经定义。您可以使用这些环境:

  • 学习强化学习的概念。

  • 熟悉强化学习工具箱软件功能。

  • 测试自己的强化学习。

可以加载以下预定义的MATLAB®网格世界环境使用rlPredefinedEnv函数。

环境 代理任务
基本网格的世界 从起始位置到目标位置在二维网格通过选择从离散的行动空间{N, S、E、W}
瀑布网格世界 从起始位置到目标位置在一个大的二维网格与未知的确定性或随机动力学。

世界有关的属性的更多信息网格环境中,明白了创建自定义网格的世界环境

你也可以加载预定义的MATLAB控制系统环境。有关更多信息,请参见负载预定义的控制系统环境

基本网格的世界

基本网格世界环境是一个二维网格5-by-5起始位置,终端位置和障碍。环境还包含一个特别从状态(2、4)状态(4,4)。代理的目标从起始位置到终端位置,同时避免障碍和总回报最大化。

世界来创建一个基本的网格环境中,使用rlPredefinedEnv函数。这个函数创建一个rlMDPEnv对象代表网格的世界。

env = rlPredefinedEnv (“BasicGridWorld”);

你可以想象世界网格环境中使用情节函数。

  • 代理是一个红色圆圈位置。默认情况下,代理开始在国家[1]。

  • 终端位置是一个蓝色的正方形。

  • 障碍是黑色的方块。

情节(env)

基本的矮胖的网格世界代理(红色圆圈所示)放置在左上角,终端位置(一个蓝色方块)在右下角,和四个障碍方块,黑色,在中间。

行动

代理可以移动的四种可能的方向(北、南、东、西)。

奖励

代理接收以下奖励或处罚:

  • + 10奖励达到终端状态(5,5)

  • + 5奖励从状态(2、4)状态(4,4)

  • 1惩罚其他行动

确定性瀑布网格的世界

确定性瀑布电网世界环境是一个二维网格8-by-7起始位置和终端位置。环境包含一个瀑布,推动代理向网格的底部。代理的目标从起始位置到终端位置而总回报最大化。

创建一个确定性瀑布网格,使用rlPredefinedEnv函数。这个函数创建一个rlMDPEnv对象代表网格的世界。

env = rlPredefinedEnv (“WaterFallGridWorld-Deterministic”);

作为与世界的基本网格,您可以可视化环境,其中代理是一个红色圆圈和终端位置是一个蓝色的正方形。

情节(env)

基本8-by-7网格代理左边定位和终端位置在中间。

行动

代理可以移动的四种可能的方向(北、南、东、西)。

奖励

代理接收以下奖励或处罚:

  • + 10奖励达到终端状态(4、5)

  • 1惩罚其他行动

瀑布动力学

在这种环境下,瀑布推动代理向网格的底部。

基本8-by-7网格世界蓝色箭头指示瀑布向下推动代理地位。

瀑布的强度变化之间的列,如图所示在前面的图。当代理进入一个非零列强度,瀑布向下推动它的表示数量的方块。例如,如果代理东从国家[5,2],[7,3]到达状态。

网格随机瀑布世界

随机瀑布世界环境是一个二维网格8-by-7网格与起始位置和终端位置。环境包含一个瀑布,推动代理对底部的网格随机强度。代理的目标从起始位置到目标终端位置,同时避免惩罚终端状态底部的网格和最大化的总回报。

创建一个网格随机瀑布世界,使用rlPredefinedEnv函数。这个函数创建一个rlMDPEnv对象代表网格的世界。

env = rlPredefinedEnv (“WaterFallGridWorld-Stochastic”);

作为与世界的基本网格,您可以可视化环境,其中代理是一个红色圆圈和终端位置是一个蓝色的正方形。

情节(env)

基本8-by-7网格世界终端位置所示蓝色方块底部行。

行动

代理可以移动的四种可能的方向(北、南、东、西)。

奖励

代理接收以下奖励或处罚:

  • + 10奖励达到终端状态(4、5)

  • -10年罚金达到任何终端状态行网格的底部

  • 1惩罚其他行动

瀑布动力学

在这种环境下,瀑布推动代理对底部的网格随机强度。基线强度匹配的强度确定的瀑布环境。瀑布然而,在随机情况下,代理人有平等的机会经历显示强度,强度高一个档次,或一个水平低于强度。例如,如果代理东从国家[5,2],它有一个平等的机会达到状态(6,3)[7,3]或[8 3]。

另请参阅

功能

对象

相关的例子

更多关于