matlab.mapreduce.DeploySparkMapReducer类

包:matlab.mapreduce
超类:

配置一个MATLABTall数组应用程序火花作为键值对的参数

全部展开页面

描述

一个DeploySparkMapReducer对象存储部署到Spark™的tall数组应用程序的配置参数。每个tall array应用程序都必须在部署到Spark集群之前进行配置。一些配置参数定义了应用程序的属性，一些配置参数被Spark用于在集群上分配资源。配置参数通过a传递到Spark集群mapreduce函数。

建设

相依= matlab.mapreduce.DeploySparkMapReducer(“浏览器名称”,名字“大师”,url“SparkProperties”,道具）创建一个DeploySparkMapReducer使用指定的配置参数初始化。

相依= matlab.mapreduce.DeploySparkMapReducer(“浏览器名称”,名字“大师”,url“SparkProperties”,道具，名称,值）创建一个DeploySparkMapReducer具有由一个或多个名称、值对参数指定的附加配置参数的对象。名字是类的属性名和价值是对应的值。名字必须出现在单引号内(＇＇)。可以以任意顺序指定多个名称-值对参数，如Name1, Value1,…,的家．

输入参数

全部展开

`名字`- - - - - -MATLAB名称^®部署到Spark的应用程序
特征向量|字符串

在单引号内以字符向量指定的应用程序名称(＇＇)。

例子:“浏览器名称”、“myApp”

数据类型:字符|字符串

`url`- - - - - -要连接的主URL
特征向量|字符串

主URL的名称指定为单引号内的字符向量(＇＇)。

URL	描述
`yarn-client`	连接Hadoop^®YARN集群处于客户端模式。查找集群位置`HADOOP_CONF_DIR`或`YARN_CONF_DIR`变量。

例子:“大师”、“yarn-client”

数据类型:字符|字符串

`道具`- - - - - -指定Spark配置属性的键值对映射
`容器。地图`对象

一个容器。地图对象，其中包含Spark配置属性作为键值对。

部署到Hadoop YARN集群时，设置为道具使用适当的Spark配置属性作为键值对。Spark配置属性的精确集合根据部署集群环境的不同，在不同的部署场景中有所不同。用户必须与系统管理员验证Spark设置，以使用适当的配置属性。常用的Spark属性见下表。有关完整的属性集，请参阅最新的Spark文档。

运行火花在纱线

属性名称(键)	默认(值)	描述
`spark.executor.cores`	`1克ydF4y2Ba`	每个执行器上使用的核数。仅适用于YARN和Spark独立模式。在Spark独立模式下，设置此参数允许应用程序在同一个worker上运行多个executor，前提是该worker上有足够的内核。否则，每个工作者上只有一个应用程序执行程序。
`spark.executor.instances`	`2`	执行人的数目。请注意此属性与`spark.dynamicAllocation.enabled`．如果两个`spark.dynamicAllocation.enabled`和`spark.executor.instances`，则关闭动态分配，并且指定的`spark.executor.instances`使用。
`spark.driver.memory`	`1克` `2048米`(推荐)	驱动程序进程要使用的内存量。如果你得到任何内存错误，而使用`高/收集`，请考虑增加该值。
`spark.executor.memory`	`1克` `2048米`(推荐)	每个执行程序进程要使用的内存量。如果你得到任何内存错误，而使用`高/收集`，请考虑增加该值。
`spark.yarn.executor.memoryOverhead`	`executorMemory * 0.10`，最少为`384`． `4096米`(推荐)	要分配给每个执行程序的堆外内存量(以mb为单位)。如果你得到任何内存错误，而使用`高/收集`，请考虑增加该值。
`spark.dynamicAllocation.enabled`	`假`	该选项将Spark与YARN资源管理集成在一起。在给定执行器内存需求和内核数量的情况下，Spark启动尽可能多的执行器。此属性要求设置集群。将此属性设置为`真正的`指定是否使用动态资源分配，这会根据工作负载上下缩放在此应用程序中注册的执行器数量。这个属性要求`spark.shuffle.service.enabled`待设置。以下配置也是相关的:`spark.dynamicAllocation.minExecutors`，`spark.dynamicAllocation.maxExecutors`,`spark.dynamicAllocation.initialExecutors`
`spark.shuffle.service.enabled`	`假`	启用外部洗牌服务。此服务保留执行程序编写的shuffle文件，以便可以安全地删除执行程序。必须启用`spark.dynamicAllocation.enabled`设为`真正的`．为了启用它，必须设置外部洗牌服务。

MATLAB特定的属性

属性名称(键)	默认(值)	描述
`spark.matlab.worker.debug`	`假`	仅在独立/交互模式下使用。如果设置为true，在MATLAB桌面环境中执行的Spark可部署MATLAB应用程序将作为worker启动另一个MATLAB会话，并将进入调试器。日志信息定向到`橡胶log_ < > . txt`．
`spark.matlab.worker.reuse`	`真正的`	当设置为`真正的`， Spark执行器将工作线程池化，并在下一个阶段重用它们。当工人所在的执行器终止时，工人终止。
`spark.matlab.worker.profile`	`假`	仅在使用MATLAB会话作为工作器时有效。当设置为`真正的`，它打开MATLAB Profiler并生成一个保存到文件中的概要报告`插座profworker_ < split_index > _ < > _ <工人通过> .mat`．
`spark.matlab.worker.numberOfKeys`	`10000`	中可以保存的惟一键的个数`容器。地图`对象，同时执行`* ByKey`映射数据溢出到文件之前的操作。
`spark.matlab.executor.timeout`	`600000`	Spark执行器超时时间(毫秒)。部署高数组时不适用。

监控和日志记录

属性名称(键)	默认(值)	描述
`spark.history.fs.logDirectory`	`文件:/ tmp / spark-events`	目录，其中包含要由历史服务器加载的应用程序事件日志。
`spark.eventLog.dir`	`file:///tmp/spark-events`	记录Spark事件的基本目录，如果`spark.eventLog.enabled`是`真正的`．在这个基本目录中，Spark为每个应用程序创建一个子目录，并在这个目录中记录特定于应用程序的事件。您可以将其设置为一个统一的位置，如HDFS™目录，以便历史服务器可以读取历史文件。
`spark.eventLog.enabled`	`假`	是否记录Spark事件。这对于在应用程序完成后重建web UI非常有用。

名称-值参数

指定可选的参数对为Name1 = Value1,…,以=家,在那里名字是参数名和吗价值是对应的值。名称-值参数必须出现在其他参数之后，但对的顺序无关紧要。

在R2021a之前，使用逗号分隔每个名称和值，并将其括起来名字在报价。

`MCRRoot`- - - - - -路径MATLAB运行时用于执行驱动程序应用程序
特征向量|字符串

指定路径的字符向量MATLAB运行时单引号内＇＇．

例子:“MCRRoot”、“/分享/ MATLAB / MATLAB_Runtime /跟v91 '

数据类型:字符|字符串

`SparkLogLevel`- - - - - -设置Spark日志级别
`“所有”`|`“调试”`|`“错误”`|`“致命”`|`“信息”`|`“关闭”`|`“跟踪”`|`“警告”`

指定要设置的日志级别为字符向量，其中包含日志级别＇＇．

数据类型:字符|字符串

属性

该类的属性是隐藏的。

方法

该类没有用户可执行方法。

例子

全部折叠

创建DeploySparkMapReducer对象

定义Spark属性并创建DeploySparkMapReducer对象。

sparkProperties =容器。地图(…{“spark.executor.cores”，…“spark.executor.memory”，…“spark.yarn.executor.memoryOverhead”，…“spark.dynamicAllocation.enabled”，…“spark.shuffle.service.enabled”，…“spark.eventLog.enabled”，…“spark.eventLog.dir”}，…{' 1 '，…2 g的，…“1024”，…“真正的”，…“真正的”，…“真正的”，…hdfs: / / hadoopfs: 54310 / user / <用户名> / sparkdeploy”}）;conf = matlab.mapreduce.DeploySparkMapReducer(…“浏览器名称”，“myTallApp”，…“大师”，“yarn-client”，…“SparkProperties”, sparkProperties);mapreduce(设计);

版本历史

在R2016b中引入

matlab.mapreduce.DeploySparkMapReducer类

描述

建设

输入参数

`名字`- - - - - -MATLAB名称^®部署到Spark的应用程序
特征向量|字符串

`url`- - - - - -要连接的主URL
特征向量|字符串

`道具`- - - - - -指定Spark配置属性的键值对映射
`容器。地图`对象

`MCRRoot`- - - - - -路径MATLAB运行时用于执行驱动程序应用程序
特征向量|字符串

`SparkLogLevel`- - - - - -设置Spark日志级别
`“所有”`|`“调试”`|`“错误”`|`“致命”`|`“信息”`|`“关闭”`|`“跟踪”`|`“警告”`

属性

方法

例子

创建DeploySparkMapReducer对象

版本历史

另请参阅

主题

matlab.mapreduce.DeploySparkMapReducer类

描述

建设

输入参数

名字- - - - - -MATLAB名称®部署到Spark的应用程序特征向量|字符串

url- - - - - -要连接的主URL特征向量|字符串

道具- - - - - -指定Spark配置属性的键值对映射容器。地图对象

MCRRoot- - - - - -路径MATLAB运行时用于执行驱动程序应用程序特征向量|字符串

SparkLogLevel- - - - - -设置Spark日志级别“所有”|“调试”|“错误”|“致命”|“信息”|“关闭”|“跟踪”|“警告”

属性

方法

例子

创建DeploySparkMapReducer对象

版本历史

另请参阅

主题

`名字`- - - - - -MATLAB名称^®部署到Spark的应用程序
特征向量|字符串

`url`- - - - - -要连接的主URL
特征向量|字符串

`道具`- - - - - -指定Spark配置属性的键值对映射
`容器。地图`对象

`MCRRoot`- - - - - -路径MATLAB运行时用于执行驱动程序应用程序
特征向量|字符串

`SparkLogLevel`- - - - - -设置Spark日志级别
`“所有”`|`“调试”`|`“错误”`|`“致命”`|`“信息”`|`“关闭”`|`“跟踪”`|`“警告”`