主要内容

高大的数组和mapreduce

使用MATLAB并行分析大数据集®长数组和数据存储mapreduce在火花®和Hadoop®集群和并行池

可以使用并行计算工具箱™使用桌面的并行池并行计算高数组表达式。使用高数组可以让您运行大数据应用程序,这些应用程序不适合您的机器内存。还可以使用并行计算工具箱,通过连接到运行在MATLAB并行服务器™集群。您也可以使用启用Spark的Hadoop集群运行MATLAB并行服务器.有关更多信息,请参见使用高数组和数据存储的大数据工作流

功能

全部展开

创建高数组
数据存储 为大量数据创建数据存储
mapreduce 用于分析内存中不合适的数据集的编程技术
mapreduce 为mapreduce和高数组定义并行执行环境
分区 分区数据存储
numpartitions 数据存储分区数
parpool 在集群上创建并行池
gcp 获取当前并行池

全部展开

平行的。池 并行工作人员池
parallel.cluster.Hadoop Hadoop集群的mapreducer, mapreduce和高数组

例子和如何做

使用高数组和数据存储的大数据工作流

了解使用高数组分析大数据集的典型工作流程。

在并行池中使用高数组

在并行计算工具箱中发现高数组MATLAB并行服务器

在云端处理大数据

这个示例展示了如何访问云中的大型数据集,并使用MATLAB的大数据能力在云集群中处理它。

在启用Spark的Hadoop集群上使用高数组

在Spark集群上创建和使用高表,无需更改MATLAB代码。

在并行池上运行mapreduce

试一试mapreduce使用并行计算工具箱进行大数据的高级分析。

在Hadoop集群上运行mapreduce

了解mapreduce用于Hadoop集群上的高级大数据分析。

对数据存储进行并行分区

使用分区把你的数据存储成更小的部分。

概念

在并行池上运行代码

了解启动和停止并行池、池大小和集群选择。

指定并行首选项

指定您的首选项,并自动创建并行池。

发现集群并使用集群配置文件

了解如何使用集群配置文件,并发现在Amazon EC2上运行的云集群。

特色的例子