主要内容

在强化学习设计器中指定培训选项

要在中配置代理的培训,请执行以下操作:强化学习设计师应用程序,在上指定培训选项训练标签。

在“培训”选项卡上指定培训选项。

指定基本选项

训练选项卡中,可以指定以下基本培训选项。

选项 描述
最大集数 训练代理的最大集数,指定为正整数。
最大集长 每集要运行的最大步骤数,指定为正整数。
停止标准

培训终止条件,指定为以下值之一。

  • 平均步数-当每集的运行平均步数等于或超过停止值.

  • 平均向-当跑步平均奖励等于或超过临界值时停止训练。

  • 情节报酬-当当前情节中的奖励等于或超过临界值时停止训练。

  • 全局步数-当所有事件中的步骤总数(调用代理的总次数)等于或超过临界值时,停止培训。

  • 幕式计数-当训练次数等于或超过临界值时停止训练。

停止值 中训练终止条件的临界值停止标准,指定为标量。
平均窗长 平均得分、奖励和代理步骤数的窗口长度停止标准保存代理条件指定平均条件。

指定其他选项

要指定其他培训选项,请在训练选项卡,单击更多选择.

在“更多培训选项”对话框中,可以指定以下选项。

选项 描述
保存代理条件

培训期间保存代理的条件,指定为以下值之一。

  • 没有一个-培训期间不要保存任何代理。

  • 平均步数-当每集的运行平均步数等于或超过指定的临界值时,保存代理保存代理值.

  • 平均向-当运行平均奖励等于或超过临界值时保存代理。

  • 情节报酬-当当前情节中的奖励等于或超过临界值时,保存代理。

  • 全局步数-当所有事件中的步骤总数(调用代理的总次数)等于或超过临界值时,保存代理。

  • 幕式计数-当训练集数等于或超过临界值时保存代理。

保存代理值 中保存代理条件的临界值保存代理条件,指定为标量或“没有”.
保存目录

已保存代理的文件夹。如果指定了名称,但文件夹不存在,则应用程序将在当前工作目录中创建该文件夹。

要以交互方式选择文件夹,请单击浏览.

显示详细输出 选择此选项可在命令行中显示培训进度。
出错时停止 选择此选项可在一集中发生错误时停止训练。
训练区

选项以图形方式显示应用程序中的培训进度,指定为以下值之一。“培训进度”“没有”.

  • 培训进度-显示培训进度

  • 没有一个-不显示培训进度

指定并行训练选项

要使用并行计算培训代理,请在训练选项卡,单击并行计算图标。. 使用并行计算培训代理需要并行计算工具箱™ 软件。有关详细信息,请参阅使用并行计算和GPU训练代理.

要指定并行训练的选项,请选择使用并行>并行培训选项.

“并行训练选项”对话框。

在“并行训练选项”对话框中,可以指定以下训练选项。

选项 描述
并行计算模式

并行计算模式,指定为以下值之一。

  • 同步-使用帕尔普对可用工人进行同步培训。在这种情况下,工人暂停执行,直到所有工人都完成为止。主机根据所有工作人员的结果更新actor和critic参数,并将更新后的参数发送给所有工作人员。

  • 异步的-使用帕尔普在可用的工作人员上运行异步培训。在这种情况下,工作人员在完成并从主机接收更新的参数后,立即将其数据发送回主机。然后工人们继续他们的任务。

来自工人的数据类型

工作人员发送到主机的数据类型,指定为以下值之一。

  • 经历-模拟由工作人员执行,学习由主机执行。具体来说,工作人员针对环境模拟代理,并向主机发送经验数据(观察、行动、奖励、下一次观察以及指示是否达到终端条件的标志)。对于具有梯度的代理,主机根据经验计算梯度,更新网络参数,并将更新后的参数发送回工作人员,以便他们可以针对环境执行新的模拟。

  • 梯度-模拟和学习都由工作人员执行。具体来说,工作人员根据环境模拟代理,根据经验计算梯度,并将梯度发送给主机。主机平均梯度,更新网络参数,并将更新后的参数发送回工作人员,以便他们可以针对环境执行新的模拟。

对于DQN、DDPG、PPO和TD3,必须将此选项设置为经历.

发送数据之前的步骤

工作人员向主机发送数据并接收更新参数的步骤数,指定为–1或正整数。当选择此选项时–1,工作进程将等待到事件结束,然后将所有步骤数据发送到主机。否则,工作进程将在发送数据之前等待指定的步骤数。

将工作空间变量传递给工作人员

选择此选项可将模型和工作空间变量发送给并行工作程序。选择此选项时,主机将发送模型中使用的变量和MATLAB中定义的变量®向工人提供工作空间。

工人的随机种子

工作程序的随机发生器初始化,指定为以下值之一。

  • –1-为每个工作者分配唯一的随机种子。种子的值是工作者ID。

  • –2-不要将随机种子分配给工人。

  • Vector-手动为每个辅助进程指定随机种子。向量中的元素数必须与辅助对象数匹配。

要附加到并行池的文件 附加到并行池的其他文件。指定当前工作目录中的文件名,每行一个名称。
工人设置功能 在训练开始前运行的函数,指定为没有输入参数的函数的句柄。在培训开始前,每个工人运行一次此功能。编写此函数以执行培训前所需的任何处理。
辅助清理功能 训练结束后运行的函数,指定为没有输入参数的函数的句柄。您可以编写此函数以在培训结束后清理工作区或执行其他处理。

下图显示了包含以下文件和函数的并行培训配置示例。

  • 附加到并行池的数据文件-workerData.mat

  • 工人设置功能-我的设置

  • 辅助清理功能-myCleanup.m

显示文件和功能信息的并行训练选项对话框。

另见

相关话题