主要内容

matlab.mapreduce.DeploySparkMapReducer类

包:matlab.mapreduce
超类:

配置一个MATLABTall数组应用程序火花作为键值对的参数

描述

一个DeploySparkMapReducer对象存储部署到Spark™的tall数组应用程序的配置参数。每个tall array应用程序都必须在部署到Spark集群之前进行配置。一些配置参数定义了应用程序的属性,一些配置参数被Spark用于在集群上分配资源。配置参数通过a传递到Spark集群mapreduce函数。

建设

相依= matlab.mapreduce.DeploySparkMapReducer(“浏览器名称”,名字“大师”,url“SparkProperties”,道具创建一个DeploySparkMapReducer使用指定的配置参数初始化。

相依= matlab.mapreduce.DeploySparkMapReducer(“浏览器名称”,名字“大师”,url“SparkProperties”,道具名称,值创建一个DeploySparkMapReducer具有由一个或多个名称、值对参数指定的附加配置参数的对象。名字是类的属性名和价值是对应的值。名字必须出现在单引号内('')。可以以任意顺序指定多个名称-值对参数,如Name1, Value1,…,的家

输入参数

全部展开

在单引号内以字符向量指定的应用程序名称('')。

例子:“浏览器名称”、“myApp”

数据类型:字符|字符串

主URL的名称指定为单引号内的字符向量('')。

URL 描述
yarn-client 连接Hadoop®YARN集群处于客户端模式。查找集群位置HADOOP_CONF_DIRYARN_CONF_DIR变量。

例子:“大师”、“yarn-client”

数据类型:字符|字符串

一个容器。地图对象,其中包含Spark配置属性作为键值对。

部署到Hadoop YARN集群时,设置为道具使用适当的Spark配置属性作为键值对。Spark配置属性的精确集合根据部署集群环境的不同,在不同的部署场景中有所不同。用户必须与系统管理员验证Spark设置,以使用适当的配置属性。常用的Spark属性见下表。有关完整的属性集,请参阅最新的Spark文档。

运行火花在纱线

属性名称(键) 默认(值) 描述
spark.executor.cores 1克ydF4y2Ba

每个执行器上使用的核数。

仅适用于YARN和Spark独立模式。在Spark独立模式下,设置此参数允许应用程序在同一个worker上运行多个executor,前提是该worker上有足够的内核。否则,每个工作者上只有一个应用程序执行程序。

spark.executor.instances 2

执行人的数目。

请注意

此属性与spark.dynamicAllocation.enabled.如果两个spark.dynamicAllocation.enabledspark.executor.instances,则关闭动态分配,并且指定的spark.executor.instances使用。

spark.driver.memory

  • 1克

  • 2048米(推荐)

驱动程序进程要使用的内存量。

如果你得到任何内存错误,而使用高/收集,请考虑增加该值。

spark.executor.memory

  • 1克

  • 2048米(推荐)

每个执行程序进程要使用的内存量。

如果你得到任何内存错误,而使用高/收集,请考虑增加该值。

spark.yarn.executor.memoryOverhead

  • executorMemory * 0.10,最少为384

  • 4096米(推荐)

要分配给每个执行程序的堆外内存量(以mb为单位)。

如果你得到任何内存错误,而使用高/收集,请考虑增加该值。

spark.dynamicAllocation.enabled

该选项将Spark与YARN资源管理集成在一起。在给定执行器内存需求和内核数量的情况下,Spark启动尽可能多的执行器。此属性要求设置集群。

将此属性设置为真正的指定是否使用动态资源分配,这会根据工作负载上下缩放在此应用程序中注册的执行器数量。

这个属性要求spark.shuffle.service.enabled待设置。以下配置也是相关的:spark.dynamicAllocation.minExecutorsspark.dynamicAllocation.maxExecutors,spark.dynamicAllocation.initialExecutors

spark.shuffle.service.enabled

启用外部洗牌服务。此服务保留执行程序编写的shuffle文件,以便可以安全地删除执行程序。必须启用spark.dynamicAllocation.enabled设为真正的.为了启用它,必须设置外部洗牌服务。

MATLAB特定的属性

属性名称(键) 默认(值) 描述
spark.matlab.worker.debug 仅在独立/交互模式下使用。如果设置为true,在MATLAB桌面环境中执行的Spark可部署MATLAB应用程序将作为worker启动另一个MATLAB会话,并将进入调试器。日志信息定向到橡胶log_ < > . txt
spark.matlab.worker.reuse 真正的 当设置为真正的, Spark执行器将工作线程池化,并在下一个阶段重用它们。当工人所在的执行器终止时,工人终止。
spark.matlab.worker.profile 仅在使用MATLAB会话作为工作器时有效。当设置为真正的,它打开MATLAB Profiler并生成一个保存到文件中的概要报告插座profworker_ < split_index > _ < > _ <工人通过> .mat
spark.matlab.worker.numberOfKeys 10000 中可以保存的惟一键的个数容器。地图对象,同时执行* ByKey映射数据溢出到文件之前的操作。
spark.matlab.executor.timeout 600000

Spark执行器超时时间(毫秒)。部署高数组时不适用。

监控和日志记录

属性名称(键) 默认(值) 描述
spark.history.fs.logDirectory 文件:/ tmp / spark-events

目录,其中包含要由历史服务器加载的应用程序事件日志。

spark.eventLog.dir file:///tmp/spark-events

记录Spark事件的基本目录,如果spark.eventLog.enabled真正的.在这个基本目录中,Spark为每个应用程序创建一个子目录,并在这个目录中记录特定于应用程序的事件。您可以将其设置为一个统一的位置,如HDFS™目录,以便历史服务器可以读取历史文件。

spark.eventLog.enabled

是否记录Spark事件。这对于在应用程序完成后重建web UI非常有用。

名称-值参数

指定可选的参数对为Name1 = Value1,…,以=家,在那里名字是参数名和吗价值是对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来名字在报价。

指定路径的字符向量MATLAB运行时单引号内''

例子:“MCRRoot”、“/分享/ MATLAB / MATLAB_Runtime /跟v91 '

数据类型:字符|字符串

指定要设置的日志级别为字符向量,其中包含日志级别''

数据类型:字符|字符串

属性

该类的属性是隐藏的。

方法

该类没有用户可执行方法。

例子

全部折叠

定义Spark属性并创建DeploySparkMapReducer对象。

sparkProperties =容器。地图({“spark.executor.cores”“spark.executor.memory”“spark.yarn.executor.memoryOverhead”“spark.dynamicAllocation.enabled”“spark.shuffle.service.enabled”“spark.eventLog.enabled”“spark.eventLog.dir”},{' 1 '2 g的“1024”“真正的”“真正的”“真正的”hdfs: / / hadoopfs: 54310 / user / <用户名> / sparkdeploy”});conf = matlab.mapreduce.DeploySparkMapReducer(“浏览器名称”“myTallApp”“大师”“yarn-client”“SparkProperties”, sparkProperties);mapreduce(设计);

版本历史

在R2016b中引入