大数据工作流程中使用高大的阵列和数据存储

该图示示出了使用高阵列的典型工作流,​​以分析大量的数据集。在这个工作流程中,您可扩展到分析整个数据集之前分析数据的一小部分。并行计算可以帮助你从步骤六至七个扩展。也就是说,检查你的代码工作的小数据集后,对整个数据集运行它。您可以使用MATLAB®加强这方面的工作流程。

问题 所需的产品下载188bet金宝搏 更多信息
是您的数据太大?

到与任意数量的行的存储器外的数据的工作,使用高阵列。

该工作流非常适合于数据分析和机器学习。

MATLAB

对于超出的内存数据高大数组(MATLAB)

使用并行高大阵列在本地机器上。

MATLAB

并行计算工具箱™

用高大的阵列上并行池

使用并行高大阵列群集上。

MATLAB

并行计算工具箱

MATLAB并行服务器™

用高大的阵列上启用星火集群的Hadoop

如果你的数据是大在多个维度,使用分散式代替。

MATLAB

并行计算工具箱

MATLAB并行服务器

分发到阵列并行的工人

并行运行高大的数组

并行计算工具箱可以通过使用多核计算机的全部处理能力,执行与工人的并行应用程序池立即加速您的高大阵列计算。如果您已经安装了并行计算工具箱,那么你可能不需要做什么特别的利用这些功能的优势。有关使用高大阵列并行计算工具箱的更多信息,请参阅用高大的阵列上并行池

mapreducer控制自己的代码运行

当您执行高大阵列,默认执行环境使用在本地MATLAB会话,或本地并行游泳池,如果您有并行计算工具箱。默认池使用本地工人,通常一名工人在您的机器每个核心。使用mapreducer函数来更改高大阵列的执行环境使用不同的群集。

一个高大的阵列开发的算法的好处是,你只需要编写一次代码。您可以在本地开发代码,然后使用mapreducer以扩大项目,并利用并行计算工具箱提供的能力和MATLAB并行服务器

也可以看看

|||

相关的例子

更多关于