卸载实验作为集群的批处理作业
默认情况下,实验管理器运行你的实验交互。当一个实验正在运行,您可以监视的进步表中的每个试验的结果和培训的阴谋。然而,运行一个实验交互式地限制你访问MATLAB®功能。例如,在培训期间,你不能关闭项目包含试验或运行其他实验。
如果你有并行计算工具箱™MATLAB并行服务器™,你可以把你的实验作为批处理作业远程集群。集群中实验运行时,您可以:
运行另一个实验中交互式地或启动另一个批处理作业使用相同的实验中,使用不同的实验在相同的项目中,或者使用一个实验在一个不同的项目。
关闭实验管理器应用程序和继续使用MATLAB。
闭上你的MATLAB会话。
如果你只有并行计算工具箱,您可以使用一个本地集群配置文件来开发和测试客户端机器上的实验,而不是一个网络集群上运行它们。如果你闭上你的MATLAB会话,任何使用本地集群配置文件的批处理作业也立即停止。
在集群上创建批处理作业
开始对你的实验:批处理作业
配置您的实验,如中描述配置内置的训练实验或配置自定义训练实验。
提示
负荷训练和验证数据从一个位置都可以访问你所有的工人。例如,存储数据以外的项目,通过使用绝对路径访问数据。另外,创建一个数据存储对象可以访问另一台机器上的数据设置
AlternateFileSystemRoots
数据存储的属性。有关更多信息,请参见为处理在不同的机器上或设置数据存储集群。在实验管理器将来发布,在执行指定一个执行模式:
运行一个审判的一次实验,选择
批处理顺序
。实验管理器不支持这种执行模式当你设定培训选项金宝appExecutionEnvironment
来“multi-gpu”
。同时运行多个试验,选择
批处理同时
。实验管理器不支持这种执行模式当你设定培训选项金宝appExecutionEnvironment
来“multi-gpu”
或“平行”
或者当你使培训选项DispatchInBackground
。
使用集群集群列表选择一个概要文件用于你的批处理作业。创建和管理集群配置文件,打开集群配置文件管理器。有关更多信息,请参见发现集群和集群配置文件使用(并行计算工具箱)。
在池大小字段中,输入您的批处理作业的工人数量。
在
批处理顺序
模式中,使用这个字段来配置并行工人的数量在每个合作试验的实验。如果你设置池大小0
,实验运行在一个工人。在
批处理同时
模式中,使用这个字段指定的试验数量集群运行在同一时间。
因为实验管理器使用一个额外的工人要运行批处理作业,集群必须至少有一个可用的工人超过指定数量池大小字段。例如,如果您指定的池的大小
2
可用,集群必须至少有三个工人(两名工人实验和一个额外的工作运行批处理作业)。有关更多信息,请参见运行一个批处理作业并行池(并行计算工具箱)。点击运行。实验管理器使用
批处理
(并行计算工具箱)函数运行在集群指定的实验。
在批处理作业运行你的实验,你可以关闭实验管理器和恢复后的结果。监控批作业,使用工作监控,如中描述深度学习批处理作业发送到集群。
请注意
使用创建的工作想要取消或删除监控工作与实验经理可能会导致意想不到的行为。相反,取消和删除这些批处理作业经理通过使用实验。
批处理作业的跟踪进度
当你开始一个批处理作业实验,结果显示表的训练和验证指标(如RMSE和损失)为每个审判。实验管理器不不断与集群通信来更新这个表中的值。相反,检索最新的度量值和培训策划一个实验一个集群上运行,点击刷新结果表上方的按钮。
在批处理作业中断培训
取消一个实验运行的批处理作业,实验管理器将来发布,点击取消。实验管理器是任何和排队试验运行取消了
和丢弃他们的结果。
批处理执行不支持停止、取消或重新启动单个试验的实验金宝app。
检索结果和清理数据
下载完成的训练结果试验,行动结果表的列,单击下载按钮的审判。实验管理器保存下载从集群训练的结果,所以你可以访问它们在你闭上你的MATLAB会话。
内置的训练实验,实验管理器下载培训从集群网络和培训信息。
自定义训练实验,实验从集群管理器下载培训输出。
下载从集群培训结果之后,您可以导出这些结果工作区和执行额外的计算来评估培训的质量。
内置的训练实验,选择出口>训练网络或出口>培训信息。
对于自定义训练实验,选择出口>训练输出。
一旦你检索所有所需的结果和不需要工作了,删除它从集群,以避免不必要地消耗资源。永久删除批处理作业和丢弃的训练结果,训练的阴谋,和混淆矩阵对任何试验你没有下载的集群中,单击清理结果表上方的按钮。
另请参阅
应用程序
功能
批处理
(并行计算工具箱)
相关的话题
- 运行批处理并行工作(并行计算工具箱)
- 发现集群和集群配置文件使用(并行计算工具箱)
- 深度学习批处理作业发送到集群
- 并行使用实验管理器来训练网络
- 使用并行计算与云中心集群在MATLAB工具箱(并行计算工具箱)