主要内容

训练交流代理人平衡车杆系统

这个例子展示了如何训练一个演员评论家(AC)代理来平衡MATLAB®建模的车杆系统。

有关AC代理的详细信息,请参见Actor-Critic代理.有关如何使用并行计算训练AC代理的示例,请参见用并行计算训练交流代理平衡车杆系统

车杆MATLAB环境

本例的强化学习环境是一根杆子连接在一辆小车上的一个未驱动关节上,它沿着无摩擦的轨道移动。训练目标是使钟摆直立不倒。

对于这种环境:

  • 向上平衡摆的位置为0弧度,向下悬挂的位置是π弧度。

  • 摆开始直立,初始角度在-0.05和0.05 rad之间。

  • 从代理到环境的力动作信号是-10或10 N。

  • 从环境中观测到的是小车的位置和速度、摆角和摆角导数。

  • 如果杆子偏离垂直方向超过12度,或者推车从原来的位置移动超过2.4米,则该事件终止。

  • 每一步杆子保持直立,奖励为+1。当钟摆下降时,惩罚值为-5。

有关此模型的更多信息,请参见负载预定义控制系统环境

创建环境界面

为摆创建一个预定义的环境接口。

环境= rlPredefinedEnv(“CartPole-Discrete”
env = CartPoleDiscreteAction with properties: Gravity: 9.8000 MassCart: 1 MassPole: 0.1000 Length: 0.5000 MaxForce: 10 Ts: 0.0200 ThetaThresholdRadians: 0.2094 XThreshold: 2.4000 RewardForNotFalling: 1 PenaltyForFalling: -5 State: [4x1 double]
env。罚分= -10;

该界面有一个离散的动作空间,代理可以在其中对推车施加两种可能的力值之一,-10或10 N。

从环境接口获取观测和动作信息。

obsInfo = getObservationInfo(env);actInfo = getActionInfo(env);

固定随机生成器种子的再现性。

rng (0)

创建AC座席

AC代理使用价值-函数批评家来近似折现的累积长期报酬。价值-功能评论家必须接受观察结果作为输入,并返回单个标量(估计的折现累积长期回报)作为输出。

为了在评论中近似值函数,使用神经网络。将网络定义为层对象的数组,并从环境规范对象中获得观察空间的维度和可能的动作数。有关创建深度神经网络值函数表示的更多信息,请参见创建策略和值函数

criticNet = [featureInputLayer(obsInfo.Dimension(1)) fullyConnectedLayer(32) reluLayer fullyConnectedLayer(1)];

转换为dlnetwork并显示权重的数量。

criticNet = dlnetwork(criticNet);总结(criticNet)
初始化:true可学习的数量:193输入:1 '输入' 4个特征

使用创建临界近似器对象criticNet,以及观测规范。有关更多信息,请参见rlValueFunction

评论= rlValueFunction(批评网,obsInfo);

用随机的观察输入检查评论家。

getValue(评论家,{兰德(obsInfo.Dimension)})
ans =-0.3590

AC智能体使用随机策略决定采取何种行动,对于离散行动空间,该策略由离散类别行为体近似表示。这个参与者必须将观察信号作为输入,并返回每个操作的概率。

为了在参与者中近似策略函数,使用深度神经网络。将网络定义为层对象的数组,并从环境规范对象中获得观察空间的维度和可能的动作数。

actorNet = [featureInputLayer(obsInfo.Dimension(1)) fullyConnectedLayer(32) reluLayer fullyConnectedLayer(numel(actInfo.Elements)) softmaxLayer];

转换为dlnetwork并显示权重的数量。

actorNet = dlnetwork(actorNet);总结(actorNet)
初始化:true可学习的数量:226输入:1 '输入' 4个特征

使用创建参与者近似器对象actorNet以及观察和行动规范。有关更多信息,请参见rlDiscreteCategoricalActor

actor = rlDiscreteCategoricalActor(actorNet,obsInfo,actInfo);

要返回作为随机观察的函数的可能操作的概率分布,并给定当前网络权重,请使用evaluate。

prb = evaluate(actor,{rand(obsInfo.Dimension)})
复审委员会=1x1单元阵列{2 x1单}
复审委员会{1}
ans =2x1个单列向量0.4414 - 0.5586

使用演员和评论家创建代理。有关更多信息,请参见rlACAgent

agent = rlACAgent(演员,评论家);

用随机观测输入检查代理。

getAction(代理,{兰德(obsInfo.Dimension)})
ans =1x1单元阵列{[-10]}

使用点符号指定代理选项,包括演员和评论家的训练选项。或者,您可以使用rlACAgentOptionsrlOptimizerOptions对象,然后再创建代理。

agent.AgentOptions.EntropyLossWeight = 0.01;agent.AgentOptions.ActorOptimizerOptions.LearnRate = 1e-2;agent.AgentOptions.ActorOptimizerOptions.GradientThreshold = 1;agent.AgentOptions.CriticOptimizerOptions.LearnRate = 1e-2;agent.AgentOptions.CriticOptimizerOptions.GradientThreshold = 1;

火车代理

要培训代理,首先指定培训选项。对于本例,使用以下选项。

  • 每个训练集最多运行1000集,每集最多持续500个时间步。

  • 在“事件管理器”对话框中显示培训进度情节选项)并禁用命令行显示(设置详细的选项).

  • 当智能体连续10集获得的平均累积奖励大于480时停止训练。此时,agent可以将钟摆平衡在直立位置。

有关更多信息,请参见rlTrainingOptions

trainOpts = rlTrainingOptions(...MaxEpisodes = 1000,...MaxStepsPerEpisode = 500,...Verbose = false,...情节=“训练进步”...StopTrainingCriteria =“AverageReward”...StopTrainingValue = 480,...ScoreAveragingWindowLength = 10);

您可以在训练或模拟过程中使用可视化的车杆系统情节函数。

情节(env)

{

培训代理使用火车函数。训练这个代理是一个计算密集型的过程,需要几分钟才能完成。为了在运行此示例时节省时间,请通过设置加载预训练的代理doTraining.要亲自训练特工,请设置doTraining真正的

doTraining = false;如果doTraining培训代理。trainingStats = train(agent,env,trainOpts);其他的为示例加载预训练的代理。负载(“MATLABCartpoleAC.mat”“代理”);结束

模拟AC Agent

为了验证训练过的智能体的性能,在车杆环境中进行了仿真。有关代理模拟的详细信息,请参见rlSimulationOptionssim卡

simOptions = rlSimulationOptions(MaxSteps=500);experience = sim(env,agent,simOptions);

{

totalReward =总和(经验。奖励)
totalReward = 500

另请参阅

相关的话题