火车

在指定的环境中训练强化学习代理

折叠所有页面

语法

列车状态=列车（环境、代理）

trainStats=列车（代理、环境）

env =火车(＿＿＿trainOpts)

描述

trainStats=火车(env,代理）使用默认培训选项在指定环境中培训一个或多个强化学习代理。尽管代理是一个输入参数，在每次训练后，火车更新中指定的每个代理的参数代理使他们从环境中获得的长期回报最大化。培训结束时,代理反映了最后一集训练中每个agent的状态。

trainStats=火车(代理,env）执行与前面语法相同的训练。

例子

env=火车(＿＿＿,列车）火车代理在env，使用training options对象列车。使用“训练选项”指定训练参数，例如终止训练的标准、何时保存代理、要训练的最大集数以及每集的最大步数。在前面语法中的任何输入参数后使用此语法。

例子

全部折叠

训练一个强化学习代理

打开生活的脚本

培训在中配置的代理培训PG代理以平衡车柱系统例如，在相应的环境中。从环境中观察到的是一个向量，包含了小车的位置和速度，以及极点的角位置和速度。这个作用力是一个标量，有两个可能的元素(施加在推车上的力是-10牛顿或10牛顿)。

加载包含环境和已为其配置的PG代理的文件。

负载RLTrainExample.mat

使用。指定一些训练参数rlTrainingOptions．这些参数包括要训练的最大集数、每集的最大步长和终止训练的条件。对于本例，最多使用1000集，每集使用500步。当前五集的平均奖励达到500时，指示训练停止。创建一个默认选项集，并使用点符号来更改一些参数值。

trainOpts = rlTrainingOptions;trainOpts。MaxEpisodes = 1000;trainOpts。MaxStepsPerEpisode = 500;trainOpts。StopTrainingCriteria =“AverageReward”；trainOpts.StopTrainingValue=500；trainOpts.score平均增长窗长=5；

在培训期间,火车命令可以保存提供良好结果的候选代理。进一步配置训练选项以在章节奖励超过500时拯救代理。将代理保存到一个名为储蓄．

trainOpts。SaveAgentCriteria =“EpisodeReward”；trainOpts.SaveAgentValue＝500; trainOpts.SaveAgentDirectory =“savedAgents”；

最后，关闭命令行显示。打开强化学习事件管理器，以便直观地观察培训进度。

trainOpts。Verbose = false; trainOpts.Plots =“训练进步”；

你现在可以训练PG特工了。对于本例中使用的预定义的车杆环境，您可以使用情节生成推车杆系统的可视化。

情节(env)

运行此示例时，此可视化和强化学习事件管理器都会随着每个培训事件而更新。将它们并排放在屏幕上以观察进度，并培训代理。（此计算可能需要20分钟或更长时间。）

培训信息=列车（代理人、环境、列车员）；

《Episode Manager》显示，训练成功达到了终止条件，即在前5集平均奖励500英镑。在每次训练中，火车更新代理使用上一集中学习的参数。当培训终止时，您可以使用经过培训的代理模拟环境以评估其性能。在模拟过程中，环境图会像在训练过程中一样进行更新。

simOptions=rlSimulationOptions(“MaxSteps”, 500);经验= sim (env,代理,simOptions);

在培训期间,火车将满足指定条件的任何代理保存到磁盘列车运营公司和trainOpts.SaveAgentValue．要测试这些代理的性能，可以从指定的文件夹中的数据文件加载数据trainOpts。SaveAgentDirectory，并使用该代理模拟环境。

培训多个代理执行协作任务

此示例使用：

打开生活的脚本

本示例演示如何在Simulink®环境中设置多代理培训会话。在本示例中，您培训两个代理协同执行移动对象的任务。金宝app

本例中的环境是一个无摩擦的二维曲面，包含由圆表示的元素。目标对象C由半径为2m的蓝色圆表示，机器人a（红色）和B（绿色）表示由半径为1 m的较小圆圈表示。机器人试图通过碰撞施加力，将对象C移动到半径为8 m的圆环外。环境中的所有元素都具有质量并遵循牛顿运动定律。此外，元素与环境边界之间的接触力建模为弹簧和质量阻尼器系统。通过在X和Y方向施加外力，元件可以在表面上移动。在三维空间中没有运动，系统的总能量守恒。

创建本示例所需的参数集。

rlCollaborativeTaskParams

打开Simulin金宝appk模型。

mdl=“rlCollaborativeTask”；open_system (mdl)

对于这种环境：

二维空间在X和Y方向上都从-12米到12米有界。
接触弹簧刚度和阻尼值分别为100 N/m和0.1 N/m/s。
对于A、B和C的位置、速度以及上一个时间步的动作值，代理共享相同的观察结果。
当对象C移出圆环时，模拟终止。
在每个时间步，代理都会收到以下奖励：

$\begin{array}{l} r_{一个} ＝ r_{全球} + r_{当地的, 一个} \\ r_{B} ＝ r_{全球} + r_{当地的, B} \\ r_{全球} ＝ 0 ． 001 d_{c} \\ r_{当地的, 一个} ＝ - 0 ． 005 d_{交流} - 0 ． 008 u_{一个}^{2} \\ r_{当地的, B} ＝ - 0 ． 005 d_{公元前} - 0 ． 008 u_{B}^{2} \end{array}$

在这里:

$r_{一个}$ 和 $r_{B}$ 是代理A和代理B分别收到的奖励。
$r_{全球}$ 是当物体C向环的边界移动时，两个代理都收到的团队奖励。
$r_{当地的, 一个}$ 和 $r_{当地的, B}$ 是代理A和代理B根据其与对象C的距离以及上一时间步的动作幅度而收到的局部惩罚。
$d_{C}$ 为物体C到环中心的距离。
$d_{交流}$ 和 $d_{公元前}$ 分别为agent A和对象C、agent B和对象C之间的距离。
$u_{一个}$ 和 $u_{B}$ 为agent A和agent B在上一个时间步骤中的动作值。

此示例使用具有离散操作空间的近端策略优化（PPO）代理。要了解有关PPO代理的更多信息，请参阅近端政策优化代理．这些代理在机器人上施加外力使其运动。在每个时间步骤中，代理选择操作 $u_{一个, B} ＝［ F_{X}, F_{Y} ］$ 哪里 $F_{X}, F_{Y}$ 是下列两对外加力之一。

$F_{X} ＝ - 1 ． 0 N, F_{Y} ＝ - 1 ． 0 N$

$F_{X} ＝ - 1 ． 0 N, F_{Y} ＝ 0$

$F_{X} ＝ - 1 ． 0 N, F_{Y} ＝ 1 ． 0 N$

$F_{X} ＝ 0, F_{Y} ＝ - 1 ． 0 N$

$F_{X} ＝ 0, F_{Y} ＝ 0$

$F_{X} ＝ 0, F_{Y} ＝ 1 ． 0 N$

$F_{X} ＝ 1 ． 0 N, F_{Y} ＝ - 1 ． 0 N$

$F_{X} ＝ 1 ． 0 N, F_{Y} ＝ 0$

$F_{X} ＝ 1 ． 0 N, F_{Y} ＝ 1 ． 0 N$

创造环境

要创建多代理环境，请使用字符串数组指定代理的块路径。另外，使用单元格数组指定观察和操作规范对象。单元格数组中的规范对象的顺序必须与块路径数组中指定的顺序匹配。当环境创建时MATLAB工作空间中有代理时，观察和动作规范数组是可选的。有关创建多代理环境的更多信息，请参见rl金宝appSimulinkEnv．

为环境创建I/O规范。在本例中，代理是同质的，并且具有相同的I/O规范。

%观察次数numObs = 16;%行动次数numAct = 2;%外部作用力的最大值（N）maxF=1.0；每个代理的% I/O规格oinfo=rlNumericSpec（[numObs，1]）；ainfo=rlFiniteSetSpec（{[-maxF-maxF][maxF 0][maxF-maxF][0-maxF][0][0 maxF][maxF-maxF][0 maxF]}）；oinfo.Name=“观察”；ainfo。Name =“部队”；

创建Simulink环金宝app境界面。

黑色= [“rlCollaborativeTask/代理A”,“rlCollaborativeTask/Agent B”]; obsInfos={oinfo，oinfo}；actInfos={ainfo，ainfo}；环境=rlSimulinkE金宝appnv（mdl、blks、obsInfos、ACTIFOS）；

指定环境的复位功能。重置功能resetRobots确保机器人在每一集开始时从随机的初始位置开始。

env.ResetFcn=@（in）resetRobots（in、RA、RB、RC、boundaryR）；

创建代理

PPO代理依靠演员和评论家代表来学习最优策略。在这个例子中，代理为演员和评论家维护基于神经网络的函数近似器。

建立批评神经网络和表示。评价网络的输出是状态值函数 $V （年代）$ 为国家 $年代$ ．

%重置随机种子以提高重现性rng (0)%评论家网络criticNetwork = [．..featureInputLayer (oinfo.Dimension (1),“正常化”,“没有”,“名字”,“观察”) fullyConnectedLayer (128,“名字”,“CriticFC1”,“WeightsInitializer”,“他”) reluLayer (“名字”,“CriticRelu1”) fullyConnectedLayer (64,“名字”,“CriticFC2”,“WeightsInitializer”,“他”) reluLayer (“名字”,“CriticRelu2”) fullyConnectedLayer (32,“名字”,“CriticFC3”,“WeightsInitializer”,“他”) reluLayer (“名字”,“CriticRelu3”)完全连接层（1，“名字”,“CriticOutput”));%评论家表示criticOpts = rlRepresentationOptions (“LearnRate”，1e-4）；criticA=rlValueRepresentation（关键网络，oinfo，“观察”, {“观察”}, criticOpts);criticB = rlValueRepresentation (criticNetwork oinfo,“观察”, {“观察”}, criticOpts);

参与者网络的输出是概率 $π （一个 | 年代）$ 在特定状态下采取每个可能的动作对 $年代$ ．创建参与者神经网络和表示。

%的演员网络actorNetwork=[．..featureInputLayer (oinfo.Dimension (1),“正常化”,“没有”,“名字”,“观察”) fullyConnectedLayer (128,“名字”,“ActorFC1”,“WeightsInitializer”,“他”) reluLayer (“名字”,“ActorRelu1”) fullyConnectedLayer (64,“名字”,“ActorFC2”,“WeightsInitializer”,“他”) reluLayer (“名字”,“ActorRelu2”) fullyConnectedLayer (32,“名字”,“ActorFC3”,“WeightsInitializer”,“他”) reluLayer (“名字”,“ActorRelu3”) fullyConnectedLayer(元素个数(ainfo.Elements),“名字”,“行动”) softmaxLayer (“名字”,“SM”));%的演员表示actorOpts = rlRepresentationOptions (“LearnRate”1的军医);actorA = rlStochasticActorRepresentation (actorNetwork oinfo ainfo,．..“观察”, {“观察”}, actorOpts);actorB = rlStochasticActorRepresentation (actorNetwork oinfo ainfo,．..“观察”, {“观察”}, actorOpts);

创建代理。两个代理使用相同的选项。

agentOptions = rlPPOAgentOptions (．..“体验地平线”, 256,．..“ClipFactor”,0.125,．..“EntropyLossWeight”, 0.001,．..“MiniBatchSize”, 64,．..“努梅波奇”3.．..“优势估计法”,gae的,．..“GAEFactor”, 0.95,．..“采样时间”Ts,．..“DiscountFactor”,0.9995); agentA=rlPPOAgent（actorA、criticA、agentOptions）；agentB=rlPPOAgent（actorB、criticB、agentOptions）；

在训练过程中，agent收集经验，直到达到256步的经验视界或事件结束，然后从64个经验的小批进行训练。本例使用目标函数剪辑因子0.125来提高训练稳定性，使用折扣因子0.9995来鼓励长期奖励。

列车员

指定以下培训选项来培训代理。

运行训练最多1000集，每集最多持续5000时间步。
当连续100集的平均奖励为–10或更多时，停止对代理的培训。

最大事件数=1000；最大步长=5e3；培训选项=RL培训选项(．..“最大集”maxEpisodes,．..“MaxStepsPerEpisode”，maxSteps，．..“ScoreAveragingWindowLength”, 100,．..“阴谋”,“训练进步”,．..“StopTrainingCriteria”,“平均向上”,．..“StopTrainingValue”, -10);

要训练多个代理，请指定要训练的代理数组火车函数。数组中的代理的顺序必须与环境创建期间指定的代理块路径的顺序匹配。这样做可以确保代理对象链接到环境中相应的I/O接口。根据可用的计算能力，培训这些代理可能需要几个小时才能完成。

垫文件RLCollaborativeTaskAgent里面有一组训练有素的特工。您可以加载该文件并查看代理的性能。亲自训练特工，集合doTraining来真正的．

doTraining = false;如果doTraining stats = trainOpts ([agentA, agentB]，env,trainOpts); / /获取数据其他的负载('rlCollaborativeTaskAgent.mat')；结束

下图显示了训练进度的快照。由于训练过程的随机性，你可以期待不同的结果。

模拟代理

在环境中模拟训练有素的特工。

simOptions=rlSimulationOptions(“MaxSteps”, maxSteps);exp = sim(env，[agentA agentB]，simOptions);

图多代理协作任务包含一个Axis对象。Axis对象包含5个矩形、文本类型的对象。

有关代理模拟的详细信息，请参见模拟选项和sim卡．

输入参数

全部折叠

`代理`- - - - - -代理人
代理对象|强化学习代理对象数组

要训练的代理，指定为强化学习代理对象，例如rlACAgent或rlDDPGAgent，或作为此类对象的数组。

如果env多代理环境是用rl金宝appSimulinkEnv，将代理指定为数组。数组中代理的顺序必须与用于创建的代理顺序匹配env.MATLAB不支持多代理模拟金宝app^®环境。

请注意

火车更新代理在每个训练阶段。培训结束时,代理反映了最后一集训练中每个agent的状态。因此，由于不断的探索，最终agent获得的奖励不一定是训练过程中获得的最高奖励。为了在培训期间保存代理，创建一个rlTrainingOptions对象指定SaveAgentCriteria和SaveAgentValue属性并将其传递给火车作为一个列车论点

有关如何为强化学习创建和配置代理的更多信息，请参阅强化学习代理．

`env`- - - - - -环境
强化学习环境对象

agent所处的环境，指定为下列强化学习环境对象之一:

预定义的MATLAB或Simulink金宝app^®所创造的环境中使用rlPredefinedEnv. 这种环境不支持同时培训多个代理。金宝app
使用以下函数创建的自定义MATLAB环境：rlFunctionEnv或rlCreateEnvTemplate. 这种环境不支持同时培训多个代理。金宝app
您使用创建的自定义金宝appSimulink环境rl金宝appSimulinkEnv. 这种环境支持同时训练多个代理。金宝app

有关创建和配置环境的详细信息，请参见:

什么时候env是一个Si金宝appmulink环境，调用火车编译并模拟与环境关联的模型。

`列车`- - - - - -培训参数和选项
`rlTrainingOptions`对象

训练参数和选项，指定为rlTrainingOptions对象。使用此参数指定如下参数和选项:

培训结束标准
保存候选代理的标准
如何显示培训进度
并行计算的选项

有关详细信息,请参见rlTrainingOptions．

输出参数

全部折叠

`trainStats`-培训集数据
结构

训练集数据，当训练单个agent时返回一个结构，当训练多个agent时返回一个结构数组。每个结构元素包含以下字段。

`情节指数`——数据集
`[1, 2,…;N]`

事件编号，作为列向量返回[1, 2,…;N]哪里N是训练过程中的发作次数。如果你想绘制从一集到另一集的其他量的变化，这个向量是有用的。

`情节报酬`-奖励每集
列向量

每一集的奖励，以长度的列向量返回N．每个条目都包含相应章节的奖励。

`幕式`-每集的步数
列向量

每个情节中的步骤数，以长度的列向量返回N．每个条目包含相应章节中的步骤数。

`平均向`-平均奖励超过平均窗口
列向量

在中指定的平均窗口上的平均奖励列车，返回为长度的列向量N。每个条目包含在相应插曲结束时计算的平均奖励。

`TotalAgentSteps`—总步数
列向量

训练中的agent步骤总数，返回为长度列向量N．每个条目包含了条目的累积和幕式直到那个点。

`EpisodeQ0`评论家估计每集的长期奖励
列向量

使用当前代理和环境初始条件对长期回报的评估，返回为长度列向量N．每一项都是评论家的估计(问₀)为相应情节的代理人。该字段仅对具有批评者的代理存在，例如rlDDPGAgent和rlDQNAgent．

`SimulationInfo`-模拟过程中收集的信息
构造|向量`金宝app仿真软件。SimulationOutput`对象

在为培训而执行的模拟过程中收集的信息，返回为：

用于在MATLAB环境中训练，一个包含域的结构SimulationError. 此字段是一个列向量，每集有一个条目。当StopOnError选择rlTrainingOptions是“关闭”，每个条目包含在相应的章节中发生的任何错误。
对于Simulink环境中的培训金宝app，以下向量金宝app仿真软件。SimulationOutput包含相应事件期间记录的模拟数据的对象。事件的记录数据包括模型配置为记录的任何信号和状态、模拟元数据以及相应事件期间发生的任何错误。

提示

火车随着培训的进行，更新代理。为了保存原始的代理参数供以后使用，请将代理保存到一个mat文件中。
默认情况下,调用火车打开Reinforcement Learning Episode Manager，它让您可视化培训的进度。《Episode Manager》情节显示了每一集的奖励、运行的平均奖励价值和评论家的估计问₀(针对有批评者的代理商)。章节管理器还显示各种章节和培训统计数据。要关闭强化学习集管理器，请设置阴谋选择列车来“没有”．
如果您使用一个预定义的环境，其中有一个可视化，您可以使用情节(env)使环境形象化。如果你叫情节(env)在培训之前，可视化将在培训期间更新，以使您能够可视化每一集的进度。（对于自定义环境，您必须实现自己的情节方法。）
中规定的条件终止培训列车感到满意。若要终止正在进行的培训，请在“强化学习集管理器”中单击停止训练．因为火车每集更新代理，您可以通过呼叫恢复培训火车(代理,env, trainOpts)同样，在不丢失第一次调用时学到的训练参数的情况下火车．
在培训期间，您可以保存满足指定条件的候选代理列车．例如，您可以保存任何集奖励超过一定值的代理，即使还未满足终止训练的总体条件。火车在指定的文件夹中的mat -文件中存储已保存的代理列车．保存的代理可能很有用，例如，它允许您测试在长时间运行的培训过程中生成的候选代理。保存条件和保存位置请参见rlTrainingOptions．

算法

一般来说,火车执行以下迭代步骤：

初始化代理．
每集:
1. 重置环境。
2. 得到最初的观察结果年代₀从环境中。
3. 计算初始作用一个₀＝μ（年代₀)．
4. 将当前操作设置为初始操作(一个←一个₀)，并将当前观测值设置为初始观测值(年代←年代₀)．
5. 当该集尚未结束或终止时：
  1. 用行动来改善环境一个获取下一个观察结果年代“至于报酬呢?r．
  2. 从经验中学习(年代,一个,r,年代').
  3. 计算下一个动作一个' =μ（年代').
  4. 用下一个操作更新当前操作(一个←一个“），并用下一个观察更新当前观察(年代←年代').
  5. 如果满足环境中定义的集终止条件，则中断。
如果训练终止条件定义为列车满足条件，终止培训。否则，就开始下一集。

具体如何火车执行这些计算取决于代理和环境的配置。例如，在每一集的开始重置环境可以包括随机初始状态值，如果您配置您的环境这样做。

扩展能力

自动并行支持金宝app
使用并行计算工具箱™自动并行运行计算，加速代码。

平行训练，设置UseParallel和ParallelizationOptions选项集中的选项列车. 多代理环境不支持并行培训。有关详细信息，请参阅金宝apprlTrainingOptions．

另请参阅

rlTrainingOptions|sim卡

主题

训练强化学习代理

介绍了R2019a

火车

语法

描述

例子

训练一个强化学习代理

培训多个代理执行协作任务

输入参数

`代理`- - - - - -代理人
代理对象|强化学习代理对象数组

`env`- - - - - -环境
强化学习环境对象

`列车`- - - - - -培训参数和选项
`rlTrainingOptions`对象

输出参数

`trainStats`-培训集数据
结构

`情节指数`——数据集
`[1, 2,…;N]`

`情节报酬`-奖励每集
列向量

`幕式`-每集的步数
列向量

`平均向`-平均奖励超过平均窗口
列向量

`TotalAgentSteps`—总步数
列向量

`EpisodeQ0`评论家估计每集的长期奖励
列向量

`SimulationInfo`-模拟过程中收集的信息
构造|向量`金宝app仿真软件。SimulationOutput`对象

提示

算法

扩展能力

自动并行支持金宝app
使用并行计算工具箱™自动并行运行计算，加速代码。

另请参阅

主题

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

火车

语法

描述

例子

训练一个强化学习代理

培训多个代理执行协作任务

输入参数

代理- - - - - -代理人代理对象|强化学习代理对象数组

env- - - - - -环境强化学习环境对象

列车- - - - - -培训参数和选项rlTrainingOptions对象

输出参数

trainStats-培训集数据结构

情节指数——数据集[1, 2,…;N]

情节报酬-奖励每集列向量

幕式-每集的步数列向量

平均向-平均奖励超过平均窗口列向量

TotalAgentSteps—总步数列向量

EpisodeQ0评论家估计每集的长期奖励列向量

SimulationInfo-模拟过程中收集的信息构造|向量金宝app仿真软件。SimulationOutput对象

提示

算法

扩展能力

自动并行支持金宝app使用并行计算工具箱™自动并行运行计算，加速代码。

另请参阅

主题

强化学习工具箱文档

金宝app

基于MATLAB和Simulink的强化学习金宝app

`代理`- - - - - -代理人
代理对象|强化学习代理对象数组

`env`- - - - - -环境
强化学习环境对象

`列车`- - - - - -培训参数和选项
`rlTrainingOptions`对象

`trainStats`-培训集数据
结构

`情节指数`——数据集
`[1, 2,…;N]`

`情节报酬`-奖励每集
列向量

`幕式`-每集的步数
列向量

`平均向`-平均奖励超过平均窗口
列向量

`TotalAgentSteps`—总步数
列向量

`EpisodeQ0`评论家估计每集的长期奖励
列向量

`SimulationInfo`-模拟过程中收集的信息
构造|向量`金宝app仿真软件。SimulationOutput`对象

自动并行支持金宝app
使用并行计算工具箱™自动并行运行计算，加速代码。