用并行计算训练交流代理平衡车杆系统

这个例子使用了:

打开实时脚本

这个例子展示了如何通过异步并行训练训练一个actor-critic (AC)代理来平衡MATLAB®建模的车杆系统。有关如何在不使用并行训练的情况下训练代理的示例，请参见训练交流代理人平衡车杆系统．

演员并行训练

当您对AC代理使用并行计算时，每个工作人员都会从代理和环境的副本中生成经验。在每一个N步骤中，工作人员根据经验计算梯度，并将计算出的梯度发送回客户端代理(与开始训练的MATLAB®过程相关的代理)。客户端代理更新参数如下。

对于异步训练，客户端代理应用接收到的梯度，而不需要等待所有工作者发送梯度，并将更新后的参数发送回提供梯度的工作者。然后，工作人员继续使用更新的参数从其环境中生成经验。
对于同步训练，客户端代理等待接收来自所有工作者的梯度，并使用这些梯度更新其参数。然后客户端同时将更新后的参数发送给所有工作人员。然后，所有工作人员继续使用更新的参数生成经验。

有关同步与异步并行的更多信息，请参见使用并行计算和图形处理器训练代理．

创建车杆MATLAB环境接口

为车杆系统创建预定义的环境接口。有关此环境的详细信息，请参见负载预定义控制系统环境．

环境= rlPredefinedEnv(“CartPole-Discrete”）;env。罚分= -10;

从环境接口获取观测和动作信息。

obsInfo = getObservationInfo(env);numObservations = obsInfo.Dimension(1);actInfo = getActionInfo(env);

固定随机生成器种子的再现性。

rng (0)

创建AC座席

AC智能体在给定观察和行动的情况下，使用临界值函数表示来近似长期奖励。为了创建批评家，首先创建一个深度神经网络，它有一个输入(观察)和一个输出(状态值)。由于环境提供了4个观测值，因此评论家网络的输入大小为4。有关创建深度神经网络值函数表示的更多信息，请参见创建策略和值函数表示．

criticNetwork = [featureInputLayer(4，“归一化”，“没有”，“名字”，“状态”) fullyConnectedLayer (32,“名字”，“CriticStateFC1”) reluLayer (“名字”，“CriticRelu1”) fullyConnectedLayer (1,“名字”，“CriticFC”));criticOpts = rlRepresentationOptions(“LearnRate”1飞行,“GradientThreshold”1);评论= rlValueRepresentation(批评网络，obsInfo，“观察”, {“状态”}, criticOpts);

AC代理根据给定的观察，使用参与者表示来决定采取何种操作。为了创建行动者，需要创建一个深度神经网络，它有一个输入(观察)和一个输出(动作)。actor网络的输出大小为2，因为代理可以对环境应用2个力值，-10和10。

actorNetwork = [featureInputLayer(4，“归一化”，“没有”，“名字”，“状态”) fullyConnectedLayer (32,“名字”，“ActorStateFC1”) reluLayer (“名字”，“ActorRelu1”) fullyConnectedLayer (2“名字”，“行动”));actorOpts = rlRepresentationOptions(“LearnRate”1飞行,“GradientThreshold”1);actor = rlStochasticActorRepresentation(actorNetwork,obsInfo,actInfo，.．.“观察”, {“状态”}, actorOpts);

要创建AC代理，首先使用指定AC代理选项rlACAgentOptions．

agentOpts = rlACAgentOptions(.．.“NumStepsToLookAhead”32岁的.．.“EntropyLossWeight”, 0.01,.．.“DiscountFactor”, 0.99);

然后使用指定的参与者表示和代理选项创建代理。有关更多信息，请参见rlACAgent．

agent = rlACAgent(actor，批评家，agentOpts);

并行培训方案

要培训代理，首先指定培训选项。对于本例，使用以下选项。

每次训练最多跑一次1000集，每集最多500时间的步骤。
在“事件管理器”对话框中显示培训进度情节选项)并禁用命令行显示(设置详细的选项)。
当代理收到的平均累积奖励大于500在10连续集。此时，agent可以将钟摆平衡在直立位置。

trainOpts = rlTrainingOptions(.．.“MaxEpisodes”, 1000,.．.“MaxStepsPerEpisode”, 500,.．.“详细”假的,.．.“阴谋”，“训练进步”，.．.“StopTrainingCriteria”，“AverageReward”，.．.“StopTrainingValue”, 500,.．.“ScoreAveragingWindowLength”10);

您可以在训练或模拟过程中使用可视化的车杆系统情节函数。

情节(env)

图推车杆可视化工具包含一个轴对象。axis对象包含6个类型为line, polygon的对象。

要使用并行计算训练代理，请指定以下训练选项。

设置UseParallel选项真正的．
属性来并行异步地训练代理ParallelizationOptions。模式选项“异步”．
在每32步之后，每个工作人员根据经验计算梯度并将其发送给客户端。
AC代理要求工人发送“梯度”到客户端。
AC代理要求“StepsUntilDataIsSent”等于agentOptions。NumStepsToLookAhead．

trainOpts。UseParallel = true;trainOpts.ParallelizationOptions.Mode =“异步”；trainOpts.ParallelizationOptions.DataToSendFromWorkers =“梯度”；trainoptions . parallelizationoptions . stepsuntildataissent = 32;

有关更多信息，请参见rlTrainingOptions．

火车代理

培训代理使用火车函数。训练代理是一个计算密集型的过程，需要几分钟才能完成。为了在运行此示例时节省时间，请通过设置加载预训练的代理doTraining来假．要亲自训练特工，请设置doTraining来真正的．由于异步并行训练的随机性，在下面的训练图中可以看到不同的训练结果。该图显示了六名工人的培训结果。

doTraining = false;如果doTraining培训代理。trainingStats = train(agent,env,trainOpts);其他的为示例加载预训练的代理。负载(“MATLABCartpoleParAC.mat”，“代理”）;结束

模拟AC Agent

在模拟过程中，可以使用plot函数对车杆系统进行可视化。

情节(env)

为了验证训练过的智能体的性能，在车杆环境中进行了仿真。有关代理模拟的详细信息，请参见rlSimulationOptions而且sim卡．

simOptions = rlSimulationOptions(“MaxSteps”, 500);experience = sim(env,agent,simOptions);

图推车杆可视化工具包含一个轴对象。axis对象包含6个类型为line, polygon的对象。

totalReward =总和(经验。奖励)

totalReward = 500

参考文献

[1] Mnih, Volodymyr, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver和Koray Kavukcuoglu。深度强化学习的异步方法。ArXiv: 1602.01783 (Cs)2016年6月16日。https://arxiv.org/abs/1602.01783．