配置对座席的培训强化学习设计器App,指定训练选项火车选项卡。
在火车选项卡中,可以指定下列基本训练选项。
选项 | 描述 |
---|---|
马克斯集 | 训练代理的最大集数,指定为正整数。 |
最大剧集长度 | 每集要运行的最大步骤数,指定为正整数。 |
停止条件 | 培训终止条件,指定为以下值之一。
|
停止价值 | 中训练终止条件的临界值停止条件,指定为标量。 |
平均窗口长度 | 平均分数、奖励和代理的步骤数的窗口长度停止条件或保存代理条件指定一个平均条件。 |
要指定其他培训选项,请在火车选项卡上,单击更多的选择.
在“更多培训选项”对话框中,您可以指定以下选项。
选项 | 描述 |
---|---|
保存代理条件 | 训练期间保存代理的条件,指定为以下值之一。
|
保存代理值 | 中保存代理条件的临界值保存代理条件,指定为标量或“没有” . |
保存目录 | 用于保存代理的文件夹。如果您指定了一个名称,而该文件夹不存在,应用程序将在当前工作目录中创建该文件夹。 单击,以交互方式选择文件夹浏览. |
显示详细输出 | 选择此选项可在命令行中显示训练进度。 |
错误时停止 | 选择此选项可在训练过程中出现错误时停止训练。 |
培训策划 | 选项以图形方式在应用程序中显示训练进度,指定为以下值之一。
|
要使用并行计算训练您的代理,请在火车选项卡上,单击.使用并行计算培训代理需要并行计算工具箱™软件。有关更多信息,请参见使用并行计算和图形处理器训练代理.
要指定并行训练选项,请选择使用并行>并行培训选项.
在“并行训练选项”对话框中,可以指定下列训练选项。
选项 | 描述 |
---|---|
并行计算模式 | 并行计算模式,指定为以下值之一。
|
来自工作者的数据类型 | 工作人员发送到并行池客户机的数据类型,指定为以下值之一。
请注意 对于DQN, DDPG, PPO, SAC和TD3,必须将此选项设置为 |
步骤,直到数据发送 | 工作人员将数据发送到客户机并接收更新参数的步骤数,指定为 |
将工作区变量转移到工作者 | 选择此选项可将模型和工作空间变量发送给并行工作人员。当您选择此选项时,并行池客户机(启动训练的过程)将发送模型中使用的变量和在MATLAB中定义的变量®工人的工作空间。 |
工人随机播种 | 工作者的随机化器初始化,指定为以下值之一。
|
要附加到并行池的文件 | 附加到并行池的其他文件。指定当前工作目录中的文件名,每行有一个文件名。 |
工作人员设置功能 | 函数要在训练开始之前运行,作为没有输入参数的函数的句柄指定。该函数在培训开始前对每个工人运行一次。编写这个函数来执行培训之前需要的任何处理。 |
Worker清理功能 | 函数在训练结束后运行,作为没有输入参数的函数的句柄指定。您可以编写这个函数来清理工作空间或在训练结束后执行其他处理。 |
下图显示了一个示例并行训练配置,包含以下文件和函数。
附加到并行池的数据文件-workerData.mat
工作人员设置功能-mySetup.m
〇工人清理功能myCleanup.m