主要内容

训练强化学习代理

一旦创建了一个环境并强化了学习代理,就可以在环境中使用火车函数。要配置培训,请使用rlTrainingOptions函数。例如,创建一个培训选项集选择,以及火车代理人代理在环境env

选择= rlTrainingOptions (...“MaxEpisodes”, 1000,...“MaxStepsPerEpisode”, 1000,...“StopTrainingCriteria”“AverageReward”...“StopTrainingValue”, 480);trainStats =火车(代理,env,选择);

有关创建代理的详细信息,请参见强化学习代理.有关创建环境的更多信息,请参见创建MATLAB强化学习环境创建Simul金宝appink强化学习环境

火车随着培训的进行,更新代理。为了保存原始代理参数供以后使用,请将代理保存到mat -文件中。

保存(“initialAgent.mat”“代理”

中指定的条件将自动终止培训StopTrainingCriteriaStopTrainingValue选择你的rlTrainingOptions对象感到满意。若要手动终止正在进行的培训,输入Ctrl + C或者,在“强化学习集管理器”中单击停止训练.因为火车每集更新代理,您可以通过呼叫恢复培训火车(代理,env, trainOpts)同样,在不丢失第一次调用时学到的训练参数的情况下火车

训练算法

一般来说,培训执行以下步骤。

  1. 初始化代理。

  2. 每集:

    1. 重置环境。

    2. 得到最初的观察结果年代0从环境中。

    3. 计算初始动作一个0μ年代0),μ年代)是现行政策。

    4. 将当前操作设置为初始操作(一个一个0),将当前观测值设置为初始观测值(年代年代0).

    5. 当情节尚未结束或终止时,请执行以下步骤。

      1. 应用操作一个对环境和获得下一个观察年代”和奖励r

      2. 从经验中学习(年代一个r年代).

      3. 计算下一个动作一个“μ年代).

      4. 使用下一个操作更新当前操作(一个一个“),并将当前的观察结果更新为下一个观察结果(年代年代).

      5. 如果满足环境中定义的终止条件,则终止该集。

  3. 如果满足培训终止条件,终止培训。否则,就开始下一集。

软件如何执行这些步骤的细节取决于代理和环境的配置。例如,在每一集的开始重置环境可以包括随机初始状态值,如果您配置您的环境这样做。有关代理及其训练算法的更多信息,请参见强化学习代理.要使用并行处理和gpu来加速训练,请参阅使用并行计算和gpu的列车代理

事件管理器

默认情况下,调用火车函数打开Reinforcement Learning Episode Manager,它让您可视化培训进度。“剧集经理”情节显示了每一集的奖励(EpisodeReward)和运行平均奖励价值(AverageReward).同样,对于有评论家的特工,情节显示了评论家在每一集开始时对折扣长期报酬的估计(EpisodeQ0).章节管理器还显示各种章节和培训统计数据。你也可以用the火车函数返回剧集和培训信息。

对于有评论家的经纪人,集Q0是在给定初始环境观察的情况下,每一事件开始时对贴现长期回报的估计。随着培训的进行,如果评论家是精心设计的。集Q0接近真实的贴现长期回报,如上图所示。

要关闭强化学习集管理器,请设置情节选择rlTrainingOptions“没有”

保存候选药物

在培训期间,您可以保存满足您在SaveAgentCriteriaSaveAgentValue选择你的rlTrainingOptions对象。例如,您可以保存任何集奖励超过一定值的代理,即使还未满足终止训练的总体条件。例如,当情节奖励大于One hundred.

选择= rlTrainingOptions (“SaveAgentCriteria”“EpisodeReward”“SaveAgentValue”, 100年);

火车将已保存的代理存储在指定的文件夹中的mat -文件中SaveAgentDirectory选择rlTrainingOptions.保存的代理可能很有用,例如,用于测试在长时间的训练过程中生成的候选代理。保存条件和保存位置请参见rlTrainingOptions

训练完成后,可以从MATLAB中保存最终训练的agent®工作空间使用保存函数。例如,保存代理myAgent到文件finalAgent.mat在当前工作目录中。

保存(选择。SaveAgentDirectory +“/ finalAgent.mat”“代理”

缺省情况下,保存DDPG和DQN代理时,不保存体验缓冲区数据。如果您计划进一步培训所保存的代理,可以从以前的经验缓冲区作为起点开始培训。在本例中,设置SaveExperienceBufferWithAgent选项真正的.对于某些代理,例如具有较大经验缓冲区和基于图像的观察的代理,保存经验缓冲区所需的内存很大。在这些情况下,必须确保为保存的代理程序提供足够的内存。

验证培训政策

要验证经过培训的代理,可以在培训环境中使用sim卡函数。要配置模拟,请使用rlSimulationOptions

验证代理时,请考虑检查代理如何处理以下情况:

与并行训练一样,如果您有parallel Computing Toolbox™软件,则可以在多核计算机上运行多个并行模拟。如果你有MATLAB并行服务器™软件,您可以在计算机集群或云资源上运行多个并行模拟。有关配置模拟以使用并行计算的更多信息,请参见UseParallelParallelizationOptionsrlSimulationOptions

环境可视化

如果您的培训环境实施了情节方法,您可以可视化的环境行为在训练和模拟。如果你叫情节(env)在训练或模拟之前env是您的环境对象,然后在训练期间进行可视化更新,以使您能够可视化每个情节或模拟的进展。

在使用并行计算训练或模拟代理时,不支持环境可视化。金宝app

对于自定义环境,您必须实现自己的环境情节方法。有关创建自定义环境的详细信息情节功能,请参阅创建自定义MATLAB环境从模板

另请参阅

相关的话题