这个例子展示了如何使用并行训练在Simulink®中训练一个深度q学习网络(DQN)代理保持车道辅助(LKA)。金宝app有关如何在不使用并行训练的情况下训练代理的示例,请参见对DQN代理进行车道保持协助培训.
有关DQN代理的更多信息,请参见深Q-Network代理.在MATLAB®中训练DQN代理的示例,请参见培训DQN员工平衡车杆系统.
在DQN代理中,每个工作者从其代理和环境的副本生成新的体验。在每一个N
步骤,工作人员将经验发送给主机代理。主机代理更新其参数如下。
对于异步训练,主机代理从接收到的经验中学习,而不需要等待所有的工作者发送经验,并将更新后的参数发送回提供经验的工作者。然后,工作人员继续使用更新后的参数从其环境中生成经验。
对于同步培训,主机代理等待从所有工作人员那里获得经验并从这些经验中学习。然后,主机将更新后的参数同时发送给所有工作人员。然后,所有工作人员使用更新后的参数继续生成体验。
此示例的增强学习环境是自动车辆动态的简单自行车模型。培训目标是通过调整前转向角来保持沿着车道的中心线行驶的自我车辆。此示例使用与此相同的车型对DQN代理进行车道保持协助培训.
m = 1575;总载体质量(千克)工业区= 2875;偏航惯性矩% (mNs^2)lf = 1.2;重心到前胎纵向距离百分比(m)lr = 1.6;%重心到后胎纵向距离(m)cf = 19000;前轮转弯刚度百分比(N/rad)Cr = 33000;后轮转弯刚度百分比(N/rad)Vx = 15;%纵向速度(m / s)
定义样本时间Ts
和仿真时间T
在几秒钟内。
ts = 0.1;t = 15;
LKA系统的输出是自我汽车的前转向角度。为了模拟自我汽车的物理转向极限,限制转向角度到范围[-0.5,0.5]
rad。
u_min = -0.5;U_MAX = 0.5;
道路的曲率定义为常数0.001 (
).横向偏差的初始值为0.2
M,相对偏航角的初始值为-0.1
rad。
ρ= 0.001;e1_initial = 0.2;e2_initial = -0.1;
打开模型。
mdl ='rllkamdl';Open_system (mdl) agentblk = [mdl . Open_system (mdl)' / RL代理'];
对于这个模型:
来自代理到环境的转向角动作信号为-15度至15度。
从环境中观察到的是横向偏差 ,相对偏航角 ,他们的衍生品 和 ,以及它们的积分 和 .
当出现横向偏差时,模拟终止
奖励 ,提供在每个时间步骤 ,是
在哪里 控制输入是否来自前一个时间步骤 .
为自我车辆创建一个强化学习环境界面。
定义观测信息。
observationInfo = rlNumericSpec([6 1],“LowerLimit”,负无穷* (6,1),“UpperLimit”,正* (6,1));observationInfo。Name =“观察”;observationInfo。描述=“横向偏差和相对偏航角信息”;
定义操作信息。
actionInfo = rlFiniteSetSpec((15:15) *π/ 180);actionInfo。Name =“转向”;
创建环境接口。
ent = rl金宝appsimulinkenv(mdl,agentblk,观察invo,afticeinfo);
该界面具有离散动作空间,其中代理可以将31个可能的转向角中的一个从-15度施加到15度。观察是含有横向偏差,相对偏航角的六维载体,以及相对于时间的衍生物和积分。
若要定义横向偏差和相对偏航角的初始条件,请使用匿名函数句柄指定环境复位函数。localResetFcn
,在这个例子的最后定义,随机初始横向偏差和相对偏航角。
env。ResetFcn = @(在)localResetFcn(的);
修复随机发生器种子以进行再现性。
rng (0)
DQN代理可以使用多输出q值批判逼近器,这通常更有效。多输出近似器将观察值作为输入,状态行为值作为输出。每个输出元素表示从观察输入所指示的状态中采取相应离散行动的预期累积长期回报。
要创建批评家,首先创建一个具有一个输入(六维观察状态)和一个具有31个元素(从-15到15度均匀间隔的转向角度)的输出向量的深度神经网络。有关创建深度神经网络值函数表示的更多信息,请参见创建策略和价值功能表示.
倪= observationInfo.Dimension (1);%输入数(6)问= 120;神经元百分数没有=元素个数(actionInfo.Elements);%输出数量(31)dnn = [featureputlayer (nI,“归一化”,“没有”,“名字”,“状态”) fullyConnectedLayer(问,“名字”,“fc1”) reluLayer (“名字”,'relu1') fullyConnectedLayer(问,“名字”,“取得”) reluLayer (“名字”,“relu2”) fullyConnectedLayer(不,“名字”,“一个fc3”文件));
查看网络配置。
图绘制(layerGraph(款)
为使用的批评家表示指定选项rlRepresentationOptions
.
criticOptions = rlRepresentationOptions (“LearnRate”1的军医,“GradientThreshold”,1,'l2regularizationfactor'1的军医);
使用指定的深度神经网络和选项创建批评家表示。您还必须为评论家指定操作和观察信息,这些信息是从环境接口获得的。有关更多信息,请参见rlQValueRepresentation
.
评论家= rlQValueRepresentation(款、observationInfo actionInfo,“观察”, {“状态”},批评);
要创建DQN代理,首先使用rlDQNAgentOptions
.
agentOpts = rlDQNAgentOptions (...“SampleTime”Ts,...“UseDoubleDQN”,真的,...“TargetSmoothFactor”1 e - 3,...“DiscountFactor”, 0.99,...“ExperienceBufferLength”1 e6,...“MiniBatchSize”, 256);agentOpts.EpsilonGreedyExploration.EpsilonDecay = 1的军医;
然后使用指定的评论家表示和代理选项创建DQN代理。有关更多信息,请参见rlDQNAgent
.
代理= rlDQNAgent(评论家,agentOpts);
要培训代理,首先指定培训选项。对于此示例,请使用以下选项。
最多运行每个培训10000
每集最多持续一集CEIL(T / TS)
时间的步骤。
仅在“章节管理器”对话框中显示培训进度(设置情节
和详细的
相应的选项)。
剧集奖励到达时停止培训1
.
当累计奖励大于100时,为每一集保存一份代理。
有关更多信息,请参见rlTrainingOptions
.
maxepisodes = 10000;maxsteps =装天花板(T / T);trainOpts = rlTrainingOptions (...'maxepisodes'maxepisodes,...'maxstepperepisode'maxsteps,...“详细”假的,...“阴谋”,“训练进步”,...“StopTrainingCriteria”,“EpisodeReward”,...“StopTrainingValue”,-1,...“SaveAgentCriteria”,“EpisodeReward”,...“SaveAgentValue”,100);
要并行地培训代理,请指定以下培训选项。
设置UseParallel
选择真正的
.
通过设置异步并行训练代理parallelizationOptions.Mode.
选择“异步”
.
每走30步后,每个工人将经验发送给主机。
DQN代理要求工作人员发送体验”
主机。
训练.Useplate = true;训练.ParlellelizationOptions.Mode =.“异步”;训练.ParlellizationOptions.datatosendfromworkers =“经验”;训练.ParlellelizationOptions.stepsuntataissent = 32;
有关更多信息,请参见rlTrainingOptions
.
使用该代理商培训火车
功能。培训代理是一个计算密集的进程,需要几分钟才能完成。要在运行此示例的同时节省时间,请通过设置加载预制代理doTraining
来假
.自己训练代理人,设置doTraining
来真正的
.由于并行训练的随机性,您可以从下面的图中看到不同的训练结果。这张图显示了四名工人的培训结果。
doTraining = false;如果doTraining培训代理商。trainingStats =火车(代理,env, trainOpts);其他的%为示例加载预训练的代理。负载('金宝appsimulinklkadqnparallel.mat',“代理”)结束
要验证经过训练的代理的性能,取消注释以下两行,并在环境中模拟该代理。有关代理模拟的更多信息,请参见RlsimulationOptions.
和sim卡
.
% simOptions = rlSimulationOptions('MaxSteps', MaxSteps);% experience = sim(env,agent,simOptions);
为了演示使用确定性初始条件训练的agent,在Simulink中模拟该模型。金宝app
e1_initial = -0.4;e2_initial = 0.2;sim (mdl)
如下图所示,横向误差(中间图)和相对偏航角(底部图)都被驱动到零。车辆从偏离中心线(-0.4米)和非零偏航角误差(0.2 rad)开始。LKA使ego汽车在2.5秒后沿着中心线行驶。转向角度(顶部图)显示控制器在2秒后达到稳定状态。
函数= localResetFcn(中)% 重启= setVariable (,“e1_initial”, 0.5 *(1 + 2 *兰德));%横向偏差的随机值= setVariable (,“e2_initial”, 0.1 *(1 + 2 *兰德));%相对偏航角的随机值结束