加载预先定义的网格世界环境- MATLAB和Simulink - MathWorks印度金宝app

加载预定义的网格世界环境

强化学习工具箱™软件提供了几个预定义的网格世界环境，其中的动作、观察、奖励和动态已经定义。你可以使用这些环境:

学习强化学习概念。
熟悉强化学习工具箱软件特性。
测试你自己的强化学习代理。

您可以加载以下预定义的MATLAB^®网格世界环境使用rlPredefinedEnv函数。

环境	代理任务
基本网格的世界	通过从离散的动作空间中选择移动，从二维网格上的起始位置移动到目标位置`{N, S、E、W}`．
瀑布网格世界	在具有未知确定性或随机动力学的较大二维网格上，从起始位置移动到目标位置。

有关网格世界环境属性的更多信息，请参见创建自定义网格世界环境．

还可以加载预先定义的MATLAB控制系统环境。有关详细信息，请参见加载预定义的控制系统环境．

基本网格的世界

基本的网格世界环境是一个5 × 5的二维网格，包含起始位置、终点位置和障碍。环境还包含从状态[2,4]到状态[4,4]的特殊跳转。agent的目标是从起点移动到终点，同时避开障碍物，使总回报最大化。

要创建基本的网格世界环境，请使用rlPredefinedEnv函数。此函数将创建rlMDPEnv对象表示网格世界。

env = rlPredefinedEnv (“BasicGridWorld”）;

控件可以可视化网格世界环境情节函数。

探员位置用红圈表示。缺省情况下，代理启动的状态为[1,1]。
终端位置是蓝色正方形。
障碍是黑色方块。

情节(env)

行动

代理可以向四个可能的方向之一移动(北、南、东或西)。

奖励

代理人收到以下奖励或处罚:

+ 10到达终点[5,5]的奖励
＋5从状态[2,4]跳到状态[4,4]的奖励
－1其他行为的惩罚

确定性瀑布网格世界

确定性瀑布网格世界环境是一个8 × 7的二维网格，具有起始位置和终端位置。该环境包括一个将代理推到网格底部的瀑布。agent的目标是从起始位置移动到终端位置，同时最大化总回报。

要创建确定性瀑布网格世界，请使用rlPredefinedEnv函数。此函数将创建rlMDPEnv对象表示网格世界。

env = rlPredefinedEnv (“WaterFallGridWorld-Deterministic”）;

与基本网格世界一样，您可以可视化环境，其中代理是一个红色的圆圈，终端位置是一个蓝色的正方形。

情节(env)

行动

代理可以向四个可能的方向之一移动(北、南、东或西)。

奖励

代理人收到以下奖励或处罚:

+ 10到达终点[4,5]的奖励
－1其他行为的惩罚

瀑布动力学

在这种环境中，瀑布将代理推到网格的底部。

瀑布的强度在各列之间有所不同，如上图的顶部所示。当代理移动到一个非零强度的列时，瀑布会根据指示的方块数量将其向下推。例如，agent从状态[5,2]向东移动，到达状态[7,3]。

随机瀑布网格世界

随机瀑布网格世界环境是一个8 × 7的二维网格，有起始位置和终点位置。该环境包含一个瀑布，以随机强度将代理推向网格的底部。agent的目标是在避免惩罚终端状态沿网格底部移动的同时，从起点位置移动到目标终端位置，使总奖励最大化。

要创建随机瀑布网格世界，请使用rlPredefinedEnv函数。此函数将创建rlMDPEnv对象表示网格世界。

env = rlPredefinedEnv (“WaterFallGridWorld-Stochastic”）;

与基本网格世界一样，您可以可视化环境，其中代理是一个红色的圆圈，终端位置是一个蓝色的正方形。

情节(env)

行动

代理可以向四个可能的方向之一移动(北、南、东或西)。

奖励

代理人收到以下奖励或处罚:

+ 10到达终点[4,5]的奖励
－10在电网的最下面一排达到任何终端状态的惩罚
－1其他行为的惩罚

瀑布动力学

在这种环境中，瀑布以随机强度将代理推向网格底部。基线强度与确定性瀑布环境的强度相匹配。然而，在随机瀑布的情况下，主体有同等的机会体验所指示的强度，或高于该强度或低于该强度。例如，如果agent从状态[5,2]向东移动，则它有相等的机会到达状态[6,3]、[7,3]或[8,3]。

另请参阅

rlPredefinedEnv|火车|rlMDPEnv

加载预定义的网格世界环境

基本网格的世界

行动

奖励

确定性瀑布网格世界

行动

奖励

瀑布动力学

随机瀑布网格世界

行动

奖励

瀑布动力学

另请参阅

相关的话题

强化学习工具箱文档

金宝app

用MATLAB和Simulink进行强化学习金宝app