主要内容

使用高数组和数据存储的大数据工作流

图中显示了一个典型的工作流,该工作流使用高数组来分析大型数据集。在这个工作流中,在扩展到分析整个数据集之前,先分析数据的一小部分。并行计算可以帮助您从步骤6扩展到步骤7。也就是说,在检查您的代码在小数据集上工作之后,在整个数据集上运行它。你可以用MATLAB®以增强此工作流程。

问题 解决方案 所需的产品下载188bet金宝搏 更多的信息
你的数据太大了吗?

使用任何数量的带有任何行的内存up,使用高阵列。

这个工作流非常适合数据分析和机器学习。

MATLAB

用于内存不足数据的高数组

在本地机器上并行使用高数组。

MATLAB

并行计算工具箱™

在并行池中使用高数组

在集群上并行使用高数组。

MATLAB

并行计算工具箱

MATLAB并行服务器™

要在Hadoop集群上使用高数组,请参见在启用Spark的Hadoop集群上使用高数组

对于所有其他类型的集群,使用非本地集群配置文件来设置并行池。例如,请参见在并行池中使用高数组

如果您的数据在多个维度上都很大,请使用分布式代替。

MATLAB

并行计算工具箱

MATLAB并行服务器

将数组分配给并行工作器

并行运行高数组

并行计算工具箱可以通过使用多核计算机的全部处理能力来使用并行工作程序池执行应用程序,从而立即加快高数组计算速度。如果您已经安装了并行计算工具箱,那么您可能不需要做任何特别的事情来利用这些功能。有关在并行计算工具箱中使用高数组的详细信息,请参见在并行池中使用高数组

使用mapreduce来控制代码运行的位置

当您执行高数组时,默认的执行环境要么使用本地MATLAB会话,要么使用本地并行池(如果您有parallel Computing Toolbox)。默认池使用本地worker,通常为机器中的每个核心使用一个worker。使用mapreduce函数更改高数组的执行环境以使用不同的集群。

使用高数组开发算法的好处之一是,您只需要编写一次代码。你可以在本地开发你的代码,然后使用mapreduce扩展并利用并行计算工具箱和的功能MATLAB并行服务器

另请参阅

|||

相关的例子

更多关于