培训强化学习代理-MATLAB和Simulink-MathWorks日本金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

培训强化学习代理

一旦创建了一个环境并强化了学习代理，就可以在环境中使用火车功能。要配置您的培训，请使用rlTrainingOptions功能。例如，创建一个训练选项集选择，及列车代理人代理人在环境中环境．

opt=rl培训选项(...“MaxEpisodes”,1000,...“MaxStepsPerEpisode”,1000,...“停止培训标准”,“AverageReward”,...“StopTrainingValue”, 480);trainStats =火车(代理,env,选择);

有关创建代理的详细信息，请参见强化学习代理．有关创建环境的更多信息，请参见创建MATLAB强化学习环境和创建Simul金宝appink强化学习环境．

火车在培训过程中更新代理。若要保留原始代理参数以供以后使用，请将代理保存到MAT文件中。

拯救(“initialAgent.mat”,“代理”)

中指定的条件将自动终止培训停车训练标准和停止训练值你的选择rlTrainingOptions对象已满足。若要手动终止正在进行的培训，请键入Ctrl + C或者，在强化学习情节管理器中，单击停止训练. 因为火车在每集更新代理，您可以通过拨打列车（代理人、环境、列车员）同样，在不丢失第一次调用时学到的训练参数的情况下火车．

训练算法

一般来说，培训执行以下步骤。

初始化代理。
每集：
1. 重置环境。
2. 得到最初的观察结果s₀来自环境。
3. 计算初始动作A.₀=μ(s₀)，在哪里μ(s)这是现行政策。
4. 将当前操作设置为初始操作(A.←A.₀)，将当前观测值设置为初始观测值(s←s₀）.
5. 当剧集尚未结束或终止时，请执行以下步骤。
  1. 应用操作A.观察环境，并获得下一次观察结果是的”“报酬呢R．
  2. 从经验中学习(s,A.,R,是的）.
  3. 计算下一个动作一个“=μ(是的）.
  4. 使用下一个操作更新当前操作(A.←一个“)并用下一个观测更新当前观测值(s←是的）.
  5. 如果满足环境中定义的终止条件，则终止该集。
如果满足培训终止条件，终止培训。否则，就开始下一集。

软件如何执行这些步骤的细节取决于代理和环境的配置。例如，在每一集的开始重置环境可以包括随机初始状态值，如果您配置您的环境这样做。有关代理及其训练算法的更多信息，请参见强化学习代理. 要使用并行处理和GPU加速训练，请参阅使用并行计算和gpu的列车代理．

事件管理器

默认情况下，调用火车函数打开强化学习情节管理器，可让您可视化培训进度。情节管理器绘图显示每个情节的奖励(情节报酬)和一个连续的平均奖励值(AverageReward）.同样，对于有评论家的特工，情节显示了评论家在每一集开始时对折扣长期报酬的估计(第0幕)。事件管理器还显示各种事件和培训统计信息。您也可以使用火车返回事件和培训信息的函数。

对于有评论家的特工来说，集Q0是根据对环境的初步观察，在每集开始时对折扣长期奖励的估计。随着培训的进行，如果评论家设计得很好。集Q0接近真实的贴现长期回报，如上图所示。

要关闭强化学习情节管理器，请设置阴谋选择rlTrainingOptions到“没有”．

保存候选药物

在培训期间，您可以保存满足在中指定条件的候选代理SaveAgentCriteria和SaveAgentValue你的选择rlTrainingOptions对象。例如，即使终止培训的总体条件尚未满足，您也可以保存情节奖励超过某个值的任何代理。例如，当情节奖励大于时保存代理One hundred.．

opt=rl培训选项(“SaveAgentCriteria”,“情节奖励”,“SaveAgentValue”,100');

火车将已保存的代理存储在指定的文件夹中的mat -文件中SaveAgentDirectory选择rlTrainingOptions．保存的代理可能很有用，例如，用于测试在长时间的训练过程中生成的候选代理。保存条件和保存位置请参见rlTrainingOptions．

训练完成后，可以从MATLAB中保存最终训练的agent^®使用保存函数。例如，保存代理我的代理人归档最后的垫子在当前工作目录中。

保存（opt.SaveAgentDirectory）+“/finalAgent.mat”,“代理人”)

默认情况下，保存DDPG和DQN代理时，不会保存体验缓冲区数据。如果您计划进一步培训保存的代理，则可以使用以前的体验缓冲区作为起点开始培训。在这种情况下，设置SaveExperienceBufferWithAgent选项真正的．对于某些代理，例如具有较大经验缓冲区和基于图像的观察的代理，保存经验缓冲区所需的内存很大。在这些情况下，必须确保为保存的代理程序提供足够的内存。

验证经过培训的策略

要验证经过培训的代理，可以在培训环境中使用模拟函数。要配置模拟，请使用rlSimulationOptions．

验证代理时，请考虑检查代理如何处理以下情况:

更改模拟初始条件-要更改模型初始条件，请修改环境的重置功能。有关重置功能的示例，请参见使用自定义函数创建MATLAB环境,创建自定义MATLAB环境从模板,创建Simul金宝appink强化学习环境．
训练和模拟环境动态之间的不匹配——为了检查这种不匹配，以创建训练环境的相同方式创建测试环境，修改环境行为。

与并行训练一样，如果您有并行计算工具箱™ 软件，您可以在多核计算机上运行多个并行模拟MATLAB并行服务器™软件，您可以在计算机集群或云资源上运行多个并行模拟。有关配置模拟以使用并行计算的更多信息，请参见使用并行和并行化选项在里面rlSimulationOptions．