主要内容

在强化学习设计师指定培训选项

配置代理的培训强化学习设计应用程序,指定培训选项火车选项卡。

在火车上指定培训选项选项卡。

指定基本的选项

火车选项卡中,可以指定以下基本训练选项。

选项 描述
马克斯集 集训练特工的最大数量,指定为一个正整数。
马克斯集长度 最大数量的步骤运行每集指定为一个正整数。
停止条件

训练终止条件,指定为以下值之一。

  • AverageSteps——停止训练运行时平均每集的步数等于或超过指定的临界值停止价值

  • AverageReward——停止训练时正在运行的平均回报等于或超过临界值。

  • EpisodeReward——停止训练时,奖励在当前事件等于或超过临界值。

  • GlobalStepCount——停止训练步骤在所有事件的总数(的总数乘以代理调用)等于或超过临界值。

  • EpisodeCount——停止训练当训练集的数量等于或超过临界值。

停止价值 训练终止条件的临界值停止条件,指定为一个标量。
平均窗长度 窗口长度平均成绩、奖励和代理时的步骤停止条件保存剂标准指定一个平均的状态。

指定附加选项

指定额外的培训方案,火车选项卡上,单击更多的选择

更多的培训选项对话框,您可以指定以下选项。

选项 描述
保存剂标准

条件保存代理培训期间,指定为以下值之一。

  • 没有一个——不保存任何代理在训练。

  • AverageSteps——保存代理运行时平均每集的步数等于或超过指定的临界值保存剂价值

  • AverageReward——保存代理运行时平均回报等于或超过临界值。

  • EpisodeReward——保存剂当奖励在当前事件等于或超过临界值。

  • GlobalStepCount——保存剂步骤在所有事件的总数(的总数乘以代理调用)等于或超过临界值。

  • EpisodeCount——保存剂当训练集的数量等于或超过临界值。

保存剂价值 保存代理条件的关键值保存剂标准,指定为一个标量或“没有”
保存目录

文件夹保存代理。如果您指定一个名称和文件夹不存在,该应用程序在当前工作目录中创建文件夹。

交互式地选择一个文件夹,单击浏览

显示详细的输出 选择这个选项在命令行显示培训进展。
停在错误 选择这个选项停止训练当一个错误发生在一集。
培训策划

选择图形显示应用的培训进展,指定为以下值之一。“训练进步”“没有”

  • 训练进步——显示培训进展

  • 没有一个- - - - - -不显示培训进展

指定并行训练选项

训练你的代理使用并行计算的火车选项卡上,单击并行计算图标。。培训代理商使用并行计算需要并行计算工具箱™软件。有关更多信息,请参见培训代理商使用并行计算和gpu

为平行培训指定选项,选择使用并行>并行训练选项

并行训练选项对话框。

在并行训练选项对话框,您可以指定以下培训选项。

选项 描述
并行计算模式

并行计算模式,指定为以下值之一。

  • 同步——使用parpool运行同步训练可用的工人。平行池客户机(开始训练的过程)更新参数的演员和评论家,基于所有的工人的结果,将更新后的参数发送给所有工人。在这种情况下,工人们必须暂停执行,直到所有的工人都完成了,结果只训练进步速度最慢的工人允许。

  • 异步——使用parpool运行异步培训可用的工人。在这种情况下,工人将数据发送回客户端尽快完成从客户端和接收更新参数。工人们继续他们的工作。

转移工作空间变量的工人

选择这个选项将模型和并行工人工作空间变量。当您选择此选项,平行池端(开始训练的过程)发送变量用于模型,在MATLAB中定义®工人的工作空间。

随机种子的工人

随机函数发生器初始化对工人,指定为以下值之一。

  • 1——每个工人分配一个唯一的随机种子。种子是工人ID的值。

  • 2——不随机种子分配给员工。

  • 向量-手动指定每个工人的随机种子。向量中的元素的数量必须与工人的数量。

文件附加到平行池 附加文件附加到平行池。在当前工作目录中指定名称的文件,每一行一个名字。
工人设置功能 函数运行在培训开始前,指定为一个处理函数没有输入参数。这个函数是在培训开始前人均运行一次。编写这个函数来执行任何处理之前,你需要训练。
工人清理功能 函数运行培训结束后,指定为一个处理函数没有输入参数。您可以编写这个函数清理工作区或执行其他处理训练后终止。

下面的图显示了一个示例并行训练配置以下文件和函数。

  • 数据文件附加到池——平行workerData.mat

  • 工人设置功能,mySetup.m

  • 工人清理功能,myCleanup.m

并行训练选项对话框显示文件和功能信息。

另请参阅

应用程序

功能

对象

相关的例子

更多关于