用基线训练PG Agent控制双积分系统

打开实时脚本

这个例子展示了如何训练一个具有基线的策略梯度(PG)代理来控制MATLAB®建模的二阶动态系统。

有关没有基线的基本PG代理的更多信息，请参见示例训练PG代理人平衡车杆系统．

双积分器MATLAB环境

本例的强化学习环境是一个带增益的二阶双积分系统。训练目标是通过施加一个力输入来控制一个质量在二阶系统中的位置。

对于这种环境:

质量从-2到2个单位之间的初始位置开始。
从agent到环境的力动作信号为-2 ~ 2n。
从环境中观测到的是物体的位置和速度。
如果物体从原始位置移动超过5米，或者如果 $| x | < 0 ． 01$ ．
奖励 $r_{t}$ ，则为的离散化 $r （ t ）$ ：

$r （ t ）＝ - （ {x （ t ）}^{”} 问 x （ t ） + {u （ t ）}^{”} R u （ t ））$

在这里:

$x$ 是质量的状态向量。
$u$ 是作用在物体上的力。
$问$ 是对控制性能的权重; $问＝［ 10 0 ； 0 1 ］$ ．
$R$ 是把重心放在控制努力上; $R ＝ 0 ． 01$ ．

有关此模型的更多信息，请参见负载预定义控制系统环境．

创建双积分器MATLAB环境界面

为摆创建一个预定义的环境接口。

环境= rlPredefinedEnv(“DoubleIntegrator-Discrete”）

env = DoubleIntegratorDiscreteAction with properties:增益:1 Ts: 0.1000 MaxDistance: 5 GoalThreshold: 0.0100 Q: [2x2 double] R: 0.0100 MaxForce: 2 State: [2x1 double]

该界面有一个离散的动作空间，代理可以在其中对质量施加三种可能的力值之一:- 2,0或2 N。

从环境接口获取观测和动作信息。

obsInfo = getObservationInfo(env);numObservations = obsInfo.Dimension(1);actInfo = getActionInfo(env);numActions = nummel (actInfo.Elements);

固定随机生成器种子的再现性。

rng (0)

创建PG代理角色

PG代理根据观察结果，使用参与者表示来决定采取何种行动。为了创建参与者，首先创建一个深度神经网络，其中一个输入(观察)和一个输出(动作)。有关创建深度神经网络值函数表示的更多信息，请参见创建策略和值函数．

actorNetwork = [featureInputLayer(numObservations，“归一化”，“没有”，“名字”，“状态”) fullyConnectedLayer (numActions“名字”，“行动”，“BiasLearnRateFactor”, 0)];actorNetwork = dlnetwork(actorNetwork);

为使用的角色优化器指定选项rlOptimizerOptions．

actorOpts = rlOptimizerOptions(“LearnRate”, 5 e - 3,“GradientThreshold”1);

使用指定的深度神经网络和选项创建角色表示。您还必须为评论家指定从环境接口获得的操作和观察信息。有关更多信息，请参见rlDiscreteCategoricalActor．

actor = rlDiscreteCategoricalActor(actorNetwork,obsInfo,actInfo);

创建PG代理基线

随着状态变化的基线可以减少更新期望值的方差，从而提高PG代理的学习速度。基线的一个可能选择是状态值函数[1]的估计值。

在这种情况下，基线表示是一个具有一个输入(状态)和一个输出(状态值)的深度神经网络。

以类似于参与者的方式构建基线。

baselineNetwork = [featureInputLayer(numObservations，“归一化”，“没有”，“名字”，“状态”) fullyConnectedLayer (8,“名字”，“BaselineFC”) reluLayer (“名字”，“CriticRelu1”) fullyConnectedLayer (1,“名字”，“BaselineFC2”，“BiasLearnRateFactor”, 0)];baselineNetwork = dlnetwork(baselineNetwork);基线选项= rlOptimizerOptions(“LearnRate”, 5 e - 3,“GradientThreshold”1);基线= rlValueFunction(baselineNetwork,obsInfo);

要创建具有基线的PG代理，使用指定PG代理选项rlPGAgentOptions并设置UseBaseline选项设置为真正的．

agentOpts = rlPGAgentOptions(.．.“UseBaseline”,真的,.．.“ActorOptimizerOptions”actorOpts,.．.“CriticOptimizerOptions”, baselineOpts);

然后使用指定的参与者表示、基线表示和代理选项创建代理。有关更多信息，请参见rlPGAgent．

agent = rlpagent (actor,baseline,agentOpts);

火车代理

要培训代理，首先指定培训选项。对于本例，使用以下选项。

最多运行1000集，每集最多持续200个时间步。
在“事件管理器”对话框中显示培训进度情节选项)并禁用命令行显示(设置详细的选项)。
当代理收到的移动平均累积奖励大于-45时停止训练。在这一点上，智能体可以用最小的控制努力控制质量的位置。

有关更多信息，请参见rlTrainingOptions．

trainOpts = rlTrainingOptions(.．.“MaxEpisodes”, 1000,.．.“MaxStepsPerEpisode”, 200,.．.“详细”假的,.．.“阴谋”，“训练进步”，.．.“StopTrainingCriteria”，“AverageReward”，.．.“StopTrainingValue”, -43);

你可以用情节在训练或模拟中发挥作用。

情节(env)

图Double Integrator Visualizer包含一个坐标轴对象。axis对象包含一个矩形类型的对象。

培训代理使用火车函数。训练这个代理是一个计算密集型的过程，需要几分钟才能完成。为了在运行此示例时节省时间，请通过设置加载预训练的代理doTraining来假．要亲自训练特工，请设置doTraining来真正的．

doTraining = false;如果doTraining培训代理。trainingStats = train(agent,env,trainOpts);其他的加载示例的预训练参数。负载(“DoubleIntegPGBaseline.mat”）;结束

模拟PG Agent

为了验证训练代理的性能，在双积分器环境中进行仿真。有关代理模拟的详细信息，请参见rlSimulationOptions而且sim卡．

simOptions = rlSimulationOptions(“MaxSteps”, 500);experience = sim(env,agent,simOptions);

图Double Integrator Visualizer包含一个坐标轴对象。axis对象包含一个矩形类型的对象。

totalReward =总和(经验。奖励)

totalReward = -43.0392

参考文献

[1]萨顿，理查德S和安德鲁g巴托。强化学习:简介．第二版。自适应计算和机器学习系列。马萨诸塞州剑桥:麻省理工学院出版社，2018年。

另请参阅

rlPGAgent