该图显示了使用高数组分析大型数据集的典型工作流。在此工作流中,在扩展到分析整个数据集之前,先分析数据的一小部分。并行计算可以帮助您从第6步扩展到第7步。也就是说,在检查您的代码在小数据集上工作之后,在整个数据集上运行它。你可以用MATLAB®以增强此工作流。
问题 | 解决方案 | 所需的产品下载188bet金宝搏 | 更多的信息 |
---|---|---|---|
你的数据太大了吗? | 要处理具有任意行数的内存不足数据,请使用tall数组。 这个工作流程非常适合于数据分析和机器学习。 |
MATLAB |
|
在本地机器上并行使用tall数组。 |
MATLAB 并行计算工具箱 |
||
在集群上并行使用tall数组。 |
MATLAB 并行计算工具箱 MATLAB并行服务器 |
要在Hadoop集群上使用高数组,请参见在Spark支持的Hadoop集群中使用Tall array 对于所有其他类型的集群,使用非本地集群配置文件来设置并行池。有关示例,请参见在并行池上使用高数组 |
|
如果您的数据在多个维度上都很大,请使用 |
MATLAB 并行计算工具箱 MATLAB并行服务器 |
并行计算工具箱通过使用多核计算机的全部处理能力来执行具有并行工作池的应用程序,可以立即加速高数组计算。如果您已经安装了并行计算工具箱,那么您可能不需要做任何特殊的事情就可以利用这些功能。有关在并行计算工具箱中使用高数组的详细信息,请参见在并行池上使用高数组.
mapreduce
控制代码运行的位置执行高数组时,默认执行环境使用本地MATLAB会话,如果有并行计算工具箱,则使用本地并行池。默认池使用本地工作者,通常机器中的每个核心都有一个工作者。使用mapreduce
函数更改tall数组的执行环境以使用不同的集群。
使用高数组开发算法的好处之一是只需要编写一次代码。您可以在本地开发代码,然后使用mapreduce
扩展和利用并行计算工具箱和提供的功能MATLAB并行服务器.