使用强化学习设计器设计和训练代理- MATLAB & Simulink - MathWorks英国金宝app

使用强化学习设计器设计和训练代理

这个例子展示了如何为一个具有离散动作空间的环境设计和训练DQN代理强化学习设计．

打开强化学习设计师应用程序

打开强化学习设计应用程序。

reinforcementLearningDesigner

“初始强化学习设计器”窗口。左边窗格没有显示已加载的代理、环境、结果或预览

最初，应用程序中没有加载代理或环境。

进口Cart-Pole环境

当使用强化学习设计，您可以从MATLAB导入一个环境^®工作区或创建预定义的环境。有关更多信息，请参见创建MATLAB环境强化学习设计器和为强化学习设计金宝app器创建Simulink环境．

对于这个例子，使用预定义的离散车杆MATLAB环境。要导入此环境，请在强化学习选项卡,环境部分中,选择新的>离散车杆．

增强学习设计器窗口，扩展“新环境”部分，显示要导入的环境选择

在环境窗格，应用程序添加导入离散CartPole环境。要重命名环境，请单击环境文本。您还可以在会话中导入多个环境。

要查看观察和操作空间的尺寸，请单击环境文本。应用程序显示尺寸在预览窗格。

预览窗格显示状态空间和操作空间的尺寸分别为[4 1]和[1 1]

这个环境有一个连续的四维观察空间(车和杆的位置和速度)和一个离散的一维动作空间，由两种可能的力组成，-10N或10N。该环境用于培训DQN员工平衡车杆系统的例子。有关预定义控制系统环境的更多信息，请参见加载预定义的控制系统环境．

为导入的环境创建DQN代理

要创建代理，请在强化学习选项卡,代理部分中,点击新．在“创建代理”对话框中，指定代理名称、环境和训练算法。默认的代理配置使用导入的环境和DQN算法。对于本例，将隐藏单元的数量从256更改为24。有关创建代理的详细信息，请参见使用强化学习设计器创建代理．

创建代理对话框

点击好吧．

该应用程序将新的代理添加到代理窗格并打开相应的Agent_1文档。

增强学习设计器，并打开代理窗口

有关DQN代理特性的简要摘要，以及查看代理的观察和操作规范，请单击概述．

增强学习设计器，代理窗口打开，显示概述部分

中创建DQN代理时强化学习设计，代理使用默认的深度神经网络结构为其批评者。查看批评家网络，上DQN代理选项卡上,单击视图评论家模型．

的深度学习网络分析仪打开并显示评论结构。

深度学习网络分析仪显示了在批评家中使用的深度神经网络

关闭深度学习网络分析仪．

火车代理

训练你的特工，在火车选项卡，首先指定培训代理的选项。有关指定培训选项的信息，请参见在强化学习设计器中指定模拟选项．

对于本例，通过设置指定训练集的最大数量马克斯集来1000．对于其他训练选项，使用它们的默认值。停止的默认标准是每一集的平均步数5情节)是大于500．

强化学习设计器应用程序在工具条中显示Train选项卡

要开始训练，请单击火车．

在训练期间，应用程序打开训练选项卡中显示训练进度培训结果文档。

强化学习设计师后的代理培训

在这里，当每集的平均步数是500步时，训练停止。清除显示集Q0选择可视化更好的情节和平均奖励。

要接受培训的结果，就上训练选项卡上,单击接受．在代理应用程序Pane会添加训练有素的代理人，agent1_Trained．

模拟Agent并检查模拟结果

来模拟训练有素的特工，在模拟选项卡中,首先选择agent1_Trained在代理下拉列表，然后配置模拟选项。对于本例，使用默认的剧集数量(10)及最长剧集长度(500）.有关指定模拟选项的更多信息，请参见在强化学习设计器中指定培训选项．

模拟将来发布选项卡

要模拟代理，单击模拟．

应用程序打开模拟会议选项卡。仿真完成后仿真结果文件显示了每一集的奖励，以及奖励的平均值和标准偏差。

模拟结果文档显示了每个模拟情节的奖励，以及它们的平均值和标准偏差

分析仿真结果，单击检查模拟数据．

在仿真数据检查您可以查看为每个模拟集保存的信号。有关更多信息，请参见仿真数据检查(金宝app模型)．

下图显示了第6个模拟情节的车杆系统的第一和第三个状态(车的位置和杆的角度)。代理能够成功地平衡杆500步，即使小车位置经历适度的摆动。您可以修改一些DQN代理选项，例如BatchSize和TargetUpdateFrequency促进更快、更有活力的学习。有关更多信息，请参见培训DQN员工平衡车杆系统．

模拟数据检查器显示的位置和速度的车在第六集模拟

关闭仿真数据检查．

接受模拟的结果，就对了模拟会议选项卡上,单击接受．

在结果窗格，应用程序添加了模拟结果结构，experience1．

导出代理和保存会话

将训练过的代理导出到MATLAB工作空间进行额外的仿真，在强化学习选项卡,在出口，选择训练有素的代理人。

“强化学习设计器”窗口，显示如何导出经过训练的代理

保存应用程序会话，在强化学习选项卡上,单击保存会话．在将来，要继续您停止的工作，您可以打开会话强化学习设计．

在命令行模拟代理

要在MATLAB命令行上模拟代理，首先加载车杆环境。

env = rlPredefinedEnv (“CartPole-Discrete”）;

车杆环境有一个环境可视化器，允许您查看系统在模拟和训练期间的行为。

绘制环境并使用之前从应用程序导出的经过训练的代理执行模拟。

情节(env) xpr2 = sim(env,agent1_Trained);

在仿真过程中，可视化程序显示了小车和杆件的运动。受过训练的特工能够稳定系统。

车杆环境可视化显示杆稳定在车

最后，显示模拟的累积奖励。

总和(xpr2.Reward)

env = 500

不出所料，奖励是500。

另请参阅

强化学习设计|analyzeNetwork