主要内容

使用高数组上火花集群

这个例子展示了如何修改一个MATLAB®创建一个高的例子表上运行一个火花™Hadoop集群或火花启用®集群。您可以使用此高表创建高数组和计算统计特性。你可以在本地开发代码,然后扩大,利用并行计算工具箱™和提供的功能MATLAB并行服务器™而无需重写你的算法。另请参阅大数据工作流使用高阵列和数据存储,配置一个火花集群(MATLAB并行服务器),配置一个Hadoop集群(MATLAB并行服务器)

建立了一个火花集群和一个火花启用Hadoop集群

首先,你必须设置环境变量和集群属性适合您的特定的火花集群配置。看你的系统管理员为这些和其他属性的值将作业提交到集群你所必需的。

设置集群上的属性火花集群

设置集群属性激发集群,在MATLAB命令窗口中输入以下命令:

集群= parallel.cluster.Spark (“SparkInstallFolder”,/道路/ /火花/安装的);%(可选),如果你想控制工人的具体数量:cluster.SparkProperties (“spark.executor.instances”)=“16”;mapreduce(集群);

设置环境变量和集群属性上火花启用Hadoop集群

设置环境变量和集群属性启用火花Hadoop集群,在MATLAB命令窗口中输入以下命令:

setenv (“HADOOP_HOME”,/道路/ / hadoop /安装的setenv ()“SPARK_HOME”,/道路/ /火花/安装的);集群= parallel.cluster.Hadoop;%(可选),如果你想控制工人的具体数量:cluster.SparkProperties (“spark.executor.instances”)=“16”;mapreduce(集群);

请注意

在设置步骤中,您使用mapreduce设置集群执行环境。在下一步中,您将创建一个高大数组。如果你修改或删除集群执行环境创建一系列高后,那么高的数组是无效的,你必须重新创建它。

请注意

如果你想发展序列,而不是使用本地工人,输入下面的命令。

mapreduce (0);

创建和使用高表

设置环境变量和集群属性之后,您可以运行MATLAB高表的例子在你的火花集群而不是在本地机器上。

这些指令显示如何创建和使用高表启用火花Hadoop集群,尽管这个过程可以用于任何火花集群。

创建一个数据存储,并将它转换成一个高大的表。MATLAB将自动启动一个火花工作运行后续计算在高台上。

ds =数据存储(“airlinesmall.csv”);varnames = {“ArrDelay”,“DepDelay”};ds。SelectedVariableNames = varnames;ds。TreatAsMissing =“NA”;

创建一个高表tt从数据存储中。

tt =高(ds)
在Hadoop集群火花开始工作。这可能需要几分钟……。tt = M×2高表ArrDelay DepDelay说8 12 8 1 21 20 13 12 4 1 59 63 3 2 11 1::::

显示器显示的行数,,还不知道。是一个占位符,直到计算完成。

提取的到来推迟ArrDelay从高表。此操作将创建一个新的高数组变量用于后续计算。

一个= tt.ArrDelay;

你可以指定一系列操作高数组,不执行,直到你的电话收集。这样做允许您批处理命令,可能需要很长时间。作为一个例子,计算平均值和标准偏差的延迟到来。使用这些值来构造上、下阈值内的延迟1个标准差的意思。

m =意味着(,“omitnan”);s =性病(,“omitnan”);one_sigma_bounds = (m m m + s);

使用收集计算one_sigma_bounds,并将答案到内存中。

sig1 =收集(one_sigma_bounds)
评估使用火花集群高表达:——通过1 1:在0.95秒完成评估在1.3秒完成sig1 = -23.4572 7.1201 37.6975

您可以指定多个输入和输出收集如果你想要评估几件事情。这样做比打电话要快收集分别在每个高数组。例如,计算最小和最大延迟到来。

[max_delay, min_delay] =收集(max ()、min ())
max_delay = 1014 min_delay = -64

请注意

这些例子需要更多的时间来完成第一次如果MATLAB开始在集群上的工人。

当使用高数组火花集群上,计算资源从集群的生命周期将留给mapreduce执行环境。清除这些资源,你必须删除mapreduce:

删除(gcmr);
或者,你可以改变到一个不同的执行环境,例如:
mapreduce (0);

另请参阅

||||||

相关的例子

更多关于