使用强化学习设计器设计和训练智能体
此示例展示如何为具有使用的离散操作空间的环境设计和训练DQN代理强化学习设计师.
打开强化学习设计器App
打开强化学习设计师应用程序。
reinforcementLearningDesigner
最初,应用程序中没有加载代理或环境。
导入车杆环境
当使用强化学习设计师,可以从MATLAB中导入环境®工作区或创建预定义的环境。有关更多信息,请参见创建增强学习设计器的MATLAB环境而且为强化学习设计金宝app器创建Simulink环境.
对于本例,使用预定义的离散卡特杆MATLAB环境。要导入此环境,请在强化学习选项卡,在环境部分中,选择新的>离散车杆.
在环境窗格,应用程序添加导入的离散CartPole
环境。要重命名环境,请单击环境文本。您还可以在会话中导入多个环境。
要查看观察和操作空间的尺寸,请单击环境文本。该应用程序显示的尺寸预览窗格。
这个环境有一个连续的四维观测空间(车和杆的位置和速度)和一个离散的一维作用空间,由两种可能的力组成,-10N或10N。此环境用于训练DQN人员平衡车杆系统的例子。有关预定义控制系统环境的详细信息,请参见负载预定义控制系统环境.
为导入的环境创建DQN代理
上创建代理强化学习选项卡,在代理部分中,点击新.2 .在“创建代理”对话框中,指定代理名称、环境和训练算法。缺省代理配置使用导入的环境和DQN算法。在本例中,将隐藏单元的数量从256更改为24。有关创建代理的详细信息,请参见使用强化学习设计器创建代理.
点击好吧.
应用程序将新代理添加到代理窗格并打开相应的agent1文档。
单击,可查看DQN代理功能的简要概述,以及该代理的观察和操作规范概述.
中创建DQN代理时强化学习设计师时,代理使用默认的深度神经网络结构作为其评论家。查看评论家网络,在DQN代理选项卡上,单击视图评论家模型.
的深度学习网络分析仪打开并显示评论家结构。
关闭深度学习网络分析仪.
火车代理
来训练你的探员火车选项卡,首先指定训练代理的选项。有关指定培训选项的信息,请参见在强化学习设计器中指定模拟选项.
对于本例,通过设置指定最大训练集数马克斯集来1000
.对于其他培训选项,使用默认值。默认的停止标准是当每集的平均步数(超过上一集)5
集)大于500
.
开始培训,单击火车.
在训练过程中,应用程序会打开训练页签,在界面中显示培训进度培训结果文档。
在这里,当每集的平均步数是500步时,训练停止。清除第Q0集选项可视化更好的插曲和平均奖励。
接受培训结果,对培训结果进行考核训练选项卡上,单击接受.在代理窗格,应用程序添加训练有素的代理,agent1_Trained
.
模拟代理和检查仿真结果
模拟训练过的代理,对模拟选项卡,首先选择agent1_Trained
在代理下拉列表,然后配置仿真选项。对于本例,使用默认的集数(10
)和最大集长(500
).有关指定模拟选项的详细信息,请参见在强化学习设计器中指定训练选项.
若要模拟代理,请单击模拟.
应用程序打开模拟会议选项卡。模拟完成后,将仿真结果文档显示了每个插曲的奖励,以及奖励的平均值和标准偏差。
单击,分析仿真结果检查仿真数据.
在模拟数据检查器您可以查看每个模拟事件保存的信号。有关更多信息,请参见模拟数据检查器(金宝app模型).
下面的图像显示了第六次模拟事件的车杆系统的第一和第三个状态(车的位置和杆的角度)。代理能够成功地平衡杆500步,即使推车的位置经历适度的摆动。您可以修改一些DQN代理选项,例如BatchSize
而且TargetUpdateFrequency
促进更快速和更强大的学习。有关更多信息,请参见训练DQN人员平衡车杆系统.
关闭模拟数据检查器.
接受仿真结果,对模拟会议选项卡上,单击接受.
在结果窗格,应用程序添加模拟结果结构,experience1
.
导出代理和保存会话
要将训练过的代理导出到MATLAB工作空间以进行进一步仿真,请在强化学习选项卡,在出口,选择训练有素的座席。
上保存应用程序会话强化学习选项卡上,单击保存会话.以后,要继续您停止的工作,可以在中打开会话强化学习设计师.
在命令行模拟代理
为了在MATLAB命令行中模拟代理,首先加载车杆环境。
环境= rlPredefinedEnv(“CartPole-Discrete”);
车杆环境有一个环境可视化工具,允许您查看系统在模拟和训练期间的行为。
绘制环境并使用之前从应用程序导出的经过训练的代理执行模拟。
plot(env) xpr2 = sim(env,agent1_Trained);
在模拟过程中,可视化工具显示推车和杆子的运动。受过训练的代理能够稳定系统。
最后,显示模拟的累积奖励。
总和(xpr2.Reward)
环境= 500
不出所料,奖励是500。