创建MATLAB强化学习环境-MATLAB和Simulink-MathWorks澳大利亚金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

创造马铃薯强化学习环境

在强化学习场景中，当您训练一个代理完成一项任务时，环境对代理与之交互的外部系统（即世界）进行建模。在控制系统应用程序中，此外部系统通常称为植物。

如下图所示，环境：

创建环境模型涉及定义：

创建环境对象时，必须指定代理用于与环境交互的操作和观察信号。您可以创建离散和连续动作和观察空间。有关更多信息，请参阅rlnumericspec.和rlfinitesetspec.，分别。

您选择的信号和观察的信号取决于您的应用程序。例如，对于控制系统应用，错误信号的积分（有时导数）通常是有用的观察。此外，对于参考跟踪应用，具有时变的参考信号作为观察是有帮助的。

当您定义观测信号时，确保观察向量中包含所有环境状态（或其估计）。这是一个很好的做法，因为代理通常是缺乏内部存储器或状态的静态功能，因此它可能无法在内部成功重建环境状态。

例如，摆动摆的图像观测具有位置信息，但其本身没有足够的信息来确定摆的速度。在这种情况下，可以测量或估计摆锤速度，作为观测向量中的附加条目。

钢筋学习工具箱™软件提供了一些预定义的MATLAB^®在已经定义了操作，观察，奖励和动态的环境。您可以使用这些环境：

您可以为自己的应用程序创建以下类型的自定义MATLAB环境。

创建自定义环境对象后，您可以以与预定义环境中相同的方式培训代理。有关培训代理商的更多信息，请参阅火车加固学习代理。

您可以使用自己的自定义奖励，状态转换和障碍配置创建任何大小的自定义网格世界。要创建自定义网格世界环境：

使用创建栅格世界模型creategridworld.作用例如，创建一个名为GW.有十行和九列。
```
gw = creategridworld（10,9）;
```
通过修改模型的属性来配置网格世界。例如，将终端状态指定为位置[7,9]
```
gw.terminalstates ="[7,9]";
```
网格世界需要包含在马尔可夫决策过程（MDP）环境中。为此网格世界创建MDP环境，代理用于与网格世界模型进行交互。
```
ent = rlmdpenv（gw）;
```