主要内容

自动调整集群大小

您的集群可以根据提交给集群的工作量自动调整大小。必须使用专用头节点才能使用自动调整大小。

要启用自动调整大小,请选择该选项允许集群自动调整大小在“创建集群”页面。属性指定集群中所需的最大工作数上限旁边的菜单集群中的worker.为确保所有机器启动时具有相同数量的工作人员,使用上限菜单选项是每台机器的工人数价值。

基于你的上限选择和每台机器的工人数值时,集群中的机器字段显示集群的最大机器数,包括头节点机器。属性中显示的机器数目将不会自动调整集群的大小集群中的机器字段或指定的工人数量集群中的worker.您可以使用它来设置您愿意为集群支付的成本的上限。

请注意

设置集群中的worker字段,以提供您准备支付的最大群集大小。

在“云计算中心”的“集群摘要”页签,可以查看最大worker数和当前请求worker数。您还可以在MATLAB中从群集对象中查看这些属性®,使用属性MaxNumWorkers而且NumWorkersRequested.有关更多信息,请参见平行的。集群(并行计算工具箱)

提示

为避免集群在所有worker空闲且队列中没有作业时关闭,请将集群的终止策略设置为a在一段固定的时间后从来没有.您的集群将仅使用专用头节点机器保持在线状态,直到提交更多作业或集群超时。

集群的增长和收缩

您的集群从专用头节点机器和零工作者开始。当您向集群提交作业时,集群将通过添加机器来扩展以容纳下一个排队的作业,直到您创建集群时设置的最大数量。集群继续增长,直到耗尽排队的作业,或者工作人员数量的上限阻止它增长以容纳下一个排队的作业。工人以增量的形式增加每台机器的工人数

当工作人员空闲时,他们可以被分配到队列中的下一个工作。只要有足够多的可用工作线程运行排队作业,就会调度该作业。

不再使用的机器将从集群中移除。即使一台机器上有一个工作人员忙,直到机器上的所有工作人员空闲时,该机器才会被移除。云计算中心将移除空闲至少5分钟的机器,每5分钟检查一次空闲工人。当机器上的所有工作人员都空闲时,移除机器可能需要长达15分钟的时间。当没有作业运行时,您的集群可以减少到零工作。在这种情况下,集群中只保留头节点。

跨机器分配作业

新机器上的工作人员或来自精加工工作的工作人员不一定同时对集群可用。一旦满足了作业的最低要求,集群就会将作业调度给空闲的工作者。因此,当集群上正在运行的作业完成并开始排队的作业时,作业可以分布到多台机器上。在这种情况下,您会发现,即使集群中的活动工作人员数量对应的机器数量小于集群当前使用的机器数量,但集群并不会因为每台机器上都有活动工作人员而缩小。

下面的示例展示了集群在工作人员之间分配这些工作的几种方法之一。实际的分布取决于工作人员在新机器上可用的顺序以及作业运行结束后可用的顺序。假设您创建了一个最多有16个工作人员的集群,每台机器有四个工作人员。集群从零工作者开始。您提交了四个工作:一个六人工作,两个四人工作,一个五人工作。作业按照提交的顺序完成。

首先,集群增长到两台机器上的6个工作人员来运行第一个6个工作人员的作业。要运行第二个作业,集群需要两个额外的worker。第三台机器被要求提供额外的工作人员。该工作分配给现有机器上的两个空闲工人和新机器上的两个工人。类似地,运行第三个作业需要另外两个工作人员,因此集群请求第四台机器。现在,使用4台机器的16名工人中有14人正在使用。没有足够的工人来完成最后的五人工作。当前三个作业运行时,该作业仍在队列中。

在四台机器上运行三个作业。第四台机器上有两名工人空闲。

当第一个作业完成时,运行该作业的6个工人就空闲了。他们不一定在同一时间变得空闲。只要有三个额外的工作人员可用,集群就会为最后的5个工作人员分配工作人员。

在四台机器上运行三个作业。第一台机器上的两名工人和第二台机器上的一名工人空闲。

当第二个作业完成时,所有四台机器上仍有活跃的工作人员。即使有7个空闲的工作人员,集群也不能缩小。

在四台机器上运行两个作业。第一台机器上有两个工人空闲,第二台机器上有三个工人空闲,第三台机器上有两个工人空闲。

当第三个作业结束时,一台机器上的所有工作人员都处于空闲状态。当它们闲置超过五分钟时,机器就可以被移除。集群缩小到三台机器。

一个作业在三台机器上运行。第一台机器上有两个工人空闲,第二台机器上有三个工人空闲,最后一台机器上有两个工人空闲。

当第四项也是最后一项工作完成时,其余三台机器上的所有工作人员都处于空闲状态。如果没有提交更多的作业,集群将减少为0个工作。集群中只保留专用的头节点机器。

AWS资源限制

如果您在集群的生命周期内遇到AWS配额限制错误或其他资源约束,Cloud Center会将最大worker数量减少到遇到错误之前成功分配的worker数量。减少的最大群集大小不支持的排队作业将被取消并从队列金宝app中删除。如果停止并重新启动集群,则限制将被移除,集群将尝试增长到指定的最大值。

有关AWS服务限制如何影响可以启动的最大实例数的详细信息,请参见AWS资源限制

相关的话题