训练DDPG代理人摆动和平衡摆

这个例子使用了:

打开实时脚本

这个例子展示了如何训练深度确定性策略梯度(DDPG)代理来摆动和平衡Simulink®中建模的钟摆。金宝app

有关DDPG代理的更多信息，请参见深度确定性策略梯度(DDPG)代理．有关在MATLAB®中训练DDPG代理的示例，请参见训练DDPG Agent控制双积分系统．

摆起模型

本例中的强化学习环境是一个简单的无摩擦摆，最初悬挂在一个向下的位置。训练目标是用最小的控制力使钟摆直立而不倒。

打开模型。

mdl =“rlSimplePendulumModel”；open_system (mdl)

对于这个模型:

向上平衡摆的位置为0弧度，向下悬挂的位置是π弧度。
从药剂到环境的力矩动作信号为-2 ~ 2n·m。
从环境中观测到的是摆角的正弦值，摆角的余弦值，以及摆角的导数。
奖励 $r_{t}$ ，则为

$r_{t} ＝ - （ {θ_{t}}^{2} + 0 ． 1 {\dot{θ_{t}}}^{2} + 0 ． 001 u_{t - 1}^{2} ）$

在这里:

$θ_{t}$ 是垂直位置的位移角。
$\dot{θ_{t}}$ 是位移角的导数。
$u_{t - 1}$ 是前一个时间步长的控制效果。

有关此模型的更多信息，请参见加载预定义的Simulink环境金宝app．

创建环境界面

为摆创建一个预定义的环境接口。

环境= rlPredefinedEnv(“SimplePendulumModel-Continuous”）

env = 金宝appSimulinkEnvWithAgent with properties: Model: rlSimplePendulumModel AgentBlock: rlSimplePendulumModel/RL Agent ResetFcn: [] UseFastRestart: on

该界面有一个连续的动作空间，代理可以在-2到2 N·m之间对摆施加扭矩值。

将环境的观测值设为摆角的正弦值，摆角的余弦值，以及摆角的导数。

numObs = 3;set_param (“rlSimplePendulumModel /创建观察”，“ThetaObservationHandling”，“要求”）;

若要将摆的初始条件定义为向下悬挂，请使用匿名函数句柄指定环境重置函数。这个重置函数设置模型工作区变量theta0来π．

env。ResetFcn = @(in)setVariable(in，“theta0”π,“工作区”、mdl);

指定模拟时间特遣部队以及代理取样时间Ts在几秒钟内。

Ts = 0.05;Tf = 20;

固定随机生成器种子的再现性。

rng (0)

创建DDPG代理

DDPG代理使用临界值函数表示，在给定观察和行动的情况下，近似计算长期奖励。为了创建批评家，首先创建一个具有两个输入(状态和动作)和一个输出的深度神经网络。有关创建深度神经网络值函数表示的更多信息，请参见创建策略和值函数．

statePath = [featureInputLayer(numObs，“归一化”，“没有”，“名字”，“观察”) fullyConnectedLayer (400,“名字”，“CriticStateFC1”) reluLayer (“名字”，“CriticRelu1”) fullyConnectedLayer (300,“名字”，“CriticStateFC2”));actionPath = [featureInputLayer(1，“归一化”，“没有”，“名字”，“行动”) fullyConnectedLayer (300,“名字”，“CriticActionFC1”，“BiasLearnRateFactor”, 0)];commonPath = [addtionlayer (2，“名字”，“添加”) reluLayer (“名字”，“CriticCommonRelu”) fullyConnectedLayer (1,“名字”，“CriticOutput”));criticNetwork = layerGraph();criticNetwork = addLayers(criticNetwork,statePath);criticNetwork = addLayers(criticNetwork,actionPath);criticNetwork = addLayers(criticNetwork,commonPath);临界网络= connectLayers(临界网络，“CriticStateFC2”，“添加/三机一体”）;临界网络= connectLayers(临界网络，“CriticActionFC1”，“添加/ in2”）;临界网络= dlnetwork(临界网络);

查看关键网络配置。

图绘制(layerGraph (criticNetwork))

图中包含一个轴对象。axis对象包含一个graphplot类型的对象。

使用指定评论家表示的选项rlOptimizerOptions．

criticOpts = rlOptimizerOptions(“LearnRate”1 e 03“GradientThreshold”1);

使用指定的深度神经网络和选项创建评论家表示。您还必须为评论家指定操作和观察信息，这些信息是您从环境接口获得的。有关更多信息，请参见rlQValueRepresentation．

obsInfo = getObservationInfo(env);actInfo = getActionInfo(env);rlQValueFunction(criticNetwork,obsInfo,actInfo，“ObservationInputNames”，“观察”，“ActionInputNames”，“行动”）;

DDPG代理使用参与者表示来决定采取何种操作。要创建行动者，首先要创建一个深度神经网络，它有一个输入(观察)和一个输出(动作)。

以类似于评论家的方式来构建演员。有关更多信息，请参见rlDeterministicActorRepresentation．

actorNetwork = [featureInputLayer(numObs，“归一化”，“没有”，“名字”，“观察”) fullyConnectedLayer (400,“名字”，“ActorFC1”) reluLayer (“名字”，“ActorRelu1”) fullyConnectedLayer (300,“名字”，“ActorFC2”) reluLayer (“名字”，“ActorRelu2”) fullyConnectedLayer (1,“名字”，“ActorFC3”) tanhLayer (“名字”，“ActorTanh”) scalingLayer (“名字”，“ActorScaling”，“规模”马克斯(actInfo.UpperLimit)));actorNetwork = dlnetwork(actorNetwork);actorOpts = rlOptimizerOptions(“LearnRate”1 e-04“GradientThreshold”1);actor = rlContinuousDeterministicActor(actorNetwork,obsInfo,actInfo);

要创建DDPG代理，首先使用指定DDPG代理选项rlDDPGAgentOptions．

agentOpts = rlDDPGAgentOptions(.．.“SampleTime”Ts,.．.“CriticOptimizerOptions”criticOpts,.．.“ActorOptimizerOptions”actorOpts,.．.“ExperienceBufferLength”1 e6,.．.“DiscountFactor”, 0.99,.．.“MiniBatchSize”, 128);agentoptions . noiseoptions .方差= 0.6;agentoptions . noiseoptions . variancedecayrate = 1e-5;

然后使用指定的参与者表示、评论家表示和代理选项创建DDPG代理。有关更多信息，请参见rlDDPGAgent．

agent = rlDDPGAgent(actor，批评家，agentOpts);

火车代理

要培训代理，首先指定培训选项。对于本例，使用以下选项。

运行训练不超过50000集，每集不超过50000集装天花板(Tf / Ts)时间的步骤。
在“事件管理器”对话框中显示培训进度情节选项)并禁用命令行显示(设置详细的选项假）.
当智能体连续五次获得的平均累积奖励大于-740时停止训练。在这一点上，代理可以用最小的控制努力快速平衡摆在直立位置。
为累积奖励大于-740的每一集保存一份代理副本。

有关更多信息，请参见rlTrainingOptions．

Maxepisodes = 5000;maxsteps = ceil(Tf/Ts);trainOpts = rlTrainingOptions(.．.“MaxEpisodes”maxepisodes,.．.“MaxStepsPerEpisode”maxsteps,.．.“ScoreAveragingWindowLength”5,.．.“详细”假的,.．.“阴谋”，“训练进步”，.．.“StopTrainingCriteria”，“AverageReward”，.．.“StopTrainingValue”, -740,.．.“SaveAgentCriteria”，“EpisodeReward”，.．.“SaveAgentValue”, -740);

培训代理使用火车函数。训练这个代理是一个计算密集型的过程，需要几个小时才能完成。为了在运行此示例时节省时间，请通过设置加载预训练的代理doTraining来假．要亲自训练特工，请设置doTraining来真正的．

doTraining = false;如果doTraining培训代理。trainingStats = train(agent,env,trainOpts);其他的为示例加载预训练的代理。负载(“金宝appSimulinkPendulumDDPG.mat”，“代理”）结束

模拟DDPG Agent

为了验证训练代理的性能，在摆环境中进行了仿真。有关代理模拟的详细信息，请参见rlSimulationOptions而且sim卡．

simOptions = rlSimulationOptions(“MaxSteps”, 500);experience = sim(env,agent,simOptions);

另请参阅

rlDDPGAgent|rl金宝appSimulinkEnv|火车