使用深度网络设计器创建代理和使用图像观察训练

打开生活的脚本

这个例子展示了如何创建一个深度q学习网络(DQN)代理，可以摆动和平衡一个在MATLAB®中建模的摆。在本例中，使用以下命令创建DQN代理深层网络设计师．有关DQN代理的更多信息，请参见深Q-Network代理．

用图像MATLAB环境进行摆振

本例的强化学习环境是一个简单的无摩擦摆，最初挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倾倒。

对于这个环境:

向上平衡的摆位为0弧度，向下悬挂的位置是π弧度。
agent对环境的力矩动作信号为-2 ~ 2n·m。
从环境观测得到的是简化的钟摆灰度图像和钟摆角导数。
奖励 $r_{t}$ ，在每个时间步长时，为

$r_{t} ＝ - （ {θ_{t}}^{2} + 0 ． 1 {\dot{θ_{t}}}^{2} + 0 ． 001 u_{t - 1}^{2} ）$

在这里:

$θ_{t}$ 为从垂直位置位移的角度。
$\dot{θ_{t}}$ 是位移角的导数。
$u_{t - 1}$ 是上一个时间步骤的控制工作。

有关此模型的更多信息，请参见用图像观察训练DDPG Agent上摆和平衡摆．

创建环境接口

为摆创建一个预定义的环境接口。

env = rlPredefinedEnv (“SimplePendulumWithImage-Discrete”）;

界面有两个观察。第一次观察，命名为“pendImage”，是一幅50乘50的灰度图像。

obsInfo = getObservationInfo (env);obsInfo (1)

ans = rlNumericSpec with properties: LowerLimit: 0 UpperLimit: 1 Name: "pendImage" Description: [0x0 string] Dimension: [50 50] DataType: "double"

第二个观察结果叫做“angularRate”，为钟摆的角速度。

obsInfo (2)

ans = rlNumericSpec with properties: LowerLimit: -Inf UpperLimit: Inf Name: "angularRate" Description: [0x0 string] Dimension: [1 1] DataType: "double"

该界面有一个离散的动作空间，在这个空间中，agent可以对摆施加5个可能的扭矩值中的一个:-2，-1,0,1，或2 N·m。

actInfo = getActionInfo (env)

属性:Elements: [-2 -1 0 1 2] Name: "torque" Description: [0x0 string] Dimension: [1 1] DataType: "double"

修复随机生成器种子的再现性。

rng (0)

利用深度网络设计器构建评论网络

DQN代理使用批判价值函数表示来近似给定的观察和行动的长期奖励。在这个环境中，评论家是一个有三个输入(两个观察和一个动作)和一个输出的深度神经网络。有关创建深度神经网络值函数表示的更多信息，请参见创建策略和价值功能表示．

您可以通过使用深层网络设计师要做到这一点，你首先要为每个观察和动作创建单独的输入路径。这些路径从它们各自的输入中学习较低级别的特性。然后创建一个公共输出路径，该路径将来自输入路径的输出组合起来。

创建图像观测路径

要创建图像观测路径，首先拖动imageInputLayer从层的图书馆窗格到画布。设置层InputSize来50岁,50岁,1对图像进行观察，并设置归一化来没有一个．

第二,拖convolution2DLayer将这个图层的输入和I的输出连接起来mageInputLayer．创建一个卷积层2过滤器(NumFilters属性)，其高度和宽度为10（FilterSize财产)，并使用大步5在水平和垂直方向(步属性)。

最后，用两组reLULayer和fullyConnectedLayer层。第一个和第二个的输出大小fullyConnectedLayer层数分别为400和300。

创建所有输入路径和输出路径

以类似的方式构造其他输入路径和输出路径。对于本示例，请使用以下选项。

角速度路径(标量输入):

imageInputLayer——设置InputSize来1，1和归一化来没有一个．
fullyConnectedLayer——设置OutputSize来400．
reLULayer
fullyConnectedLayer——设置OutputSize来300．

动作路径(标量输入):

imageInputLayer——设置InputSize来1，1和归一化来没有一个．
fullyConnectedLayer——设置OutputSize来300．

输出路径:

additionLayer-将所有输入路径的输出连接到该层的输入。
reLULayer
fullyConnectedLayer——设置OutputSize来1对于标量值函数。

从深层网络设计师导出网络

将网络导出到MATLAB工作区，在深层网络设计师,点击出口．深层网络设计师将网络导出为包含网络层的新变量。您可以使用此层网络变量创建批评家表示。

或者，要为网络生成等效的MATLAB代码，请单击导出>生成代码．

生成的代码如下所示。

lgraph = layerGraph ();templayer = [imageInputLayer([1 1 1]，])，“名称”，“angularRate”，“归一化”，“没有”) fullyConnectedLayer (400,“名称”，“dtheta_fc1”) reluLayer (“名称”，“dtheta_relu1”) fullyConnectedLayer (300,“名称”，“dtheta_fc2”));lgraph = addLayers (lgraph tempLayers);templayer = [imageInputLayer([1 1 1]，])，“名称”，“扭矩”，“归一化”，“没有”) fullyConnectedLayer (300,“名称”，“torque_fc1”));lgraph = addLayers (lgraph tempLayers);templayer = [imageInputLayer([50 50 1]，])，“名称”，“pendImage”，“归一化”，“没有”10) convolution2dLayer ([10], 2,“名称”，“img_conv1”，“填充”，“相同”，“步”[5] 5) reluLayer (“名称”，“relu_1”) fullyConnectedLayer (400,“名称”，“critic_theta_fc1”) reluLayer (“名称”，“theta_relu1”) fullyConnectedLayer (300,“名称”，“critic_theta_fc2”));lgraph = addLayers (lgraph tempLayers);tempLayers =[添加图层(3，“名称”，“添加”) reluLayer (“名称”，“relu_2”) fullyConnectedLayer (1,“名称”，“stateValue”));lgraph = addLayers (lgraph tempLayers);lgraph = connectLayers (lgraph,“torque_fc1”，“添加/ in3”）;lgraph = connectLayers (lgraph,“critic_theta_fc2”，“添加/三机一体”）;lgraph = connectLayers (lgraph,“dtheta_fc2”，“添加/ in2”）;

查看critical网络配置。

图绘制(lgraph)

图中包含一个轴对象。axis对象包含一个graphplot类型的对象。

为使用的批评家表示指定选项rlRepresentationOptions．

criticOpts = rlRepresentationOptions (“LearnRate”1 e 03“GradientThreshold”1);

使用指定的深度神经网络创建批评家表示lgraph和选项。您还必须为评论家指定操作和观察信息，这些信息是从环境接口获得的。有关更多信息，请参见rlQValueRepresentation．

评论家= rlQValueRepresentation (lgraph obsInfo actInfo,．．.“观察”, {“pendImage”，“angularRate”}，“行动”, {“扭矩”}, criticOpts);

要创建DQN代理，首先使用rlDQNAgentOptions．

agentOpts = rlDQNAgentOptions (．．.“UseDoubleDQN”假的,．．.“TargetUpdateMethod”，“平滑”，．．.“TargetSmoothFactor”1 e - 3,．．.“ExperienceBufferLength”1 e6,．．.“DiscountFactor”, 0.99,．．.“SampleTime”env。Ts,．．.“MiniBatchSize”, 64);agentOpts.EpsilonGreedyExploration.EpsilonDecay = 1 e-5;

然后，使用指定的评论表示和代理选项创建DQN代理。有关更多信息，请参见rlDQNAgent．

代理= rlDQNAgent(评论家,agentOpts);

火车代理

要培训代理，首先指定培训选项。对于本示例，请使用以下选项。

每次训练最多5000集，每集最多持续500步时间。
在“插曲管理器”对话框中显示培训进度(设置情节选项)，并禁用命令行显示(设置详细的选项假)．
当代理在默认的连续五次事件的窗口长度上获得大于-1000的平均累积奖励时，停止训练。在这一点上，代理可以快速平衡摆在直立的位置，使用最小的控制努力。

有关更多信息，请参见rlTrainingOptions．

trainOpts = rlTrainingOptions (．．.“MaxEpisodes”, 5000,．．.“MaxStepsPerEpisode”, 500,．．.“详细”假的,．．.“阴谋”，“训练进步”，．．.“StopTrainingCriteria”，“AverageReward”，．．.“StopTrainingValue”, -1000);

在训练或模拟过程中，您可以使用情节函数。

情节(env)

图Simple Pendulum Visualizer包含2个轴的物体。坐标轴对象1包含2个类型为直线、矩形的对象。axis对象2包含一个image类型的对象。

训练代理人使用火车函数。这是一个计算密集型的过程，需要几个小时才能完成。为了节省运行此示例的时间，请通过设置加载预先训练过的代理doTraining来假．自己训练代理人，设置doTraining来真正的．

doTraining = false;如果doTraining培训代理商。trainingStats =火车(代理,env, trainOpts);其他的%为示例加载预训练的代理。负载(“MATLABPendImageDQN.mat”，“代理”）;结束

模拟DQN代理

为了验证训练过的代理的性能，在摆环境中模拟它。有关代理模拟的更多信息，请参见rlSimulationOptions和sim卡．

simOptions = rlSimulationOptions (“MaxSteps”, 500);经验= sim (env,代理,simOptions);

图Simple Pendulum Visualizer包含2个轴的物体。坐标轴对象1包含2个类型为直线、矩形的对象。axis对象2包含一个image类型的对象。

totalReward =总和(experience.Reward)

totalReward = -888.9802

另请参阅

深层网络设计师|rlDQNAgent

使用深度网络设计器创建代理和使用图像观察训练

用图像MATLAB环境进行摆振

创建环境接口

利用深度网络设计器构建评论网络

从深层网络设计师导出网络

火车代理

模拟DQN代理

另请参阅

相关的话题

强化学习工具箱文档

金宝app

强化学习与MATLAB和Simulink金宝app