用于分析不适合内存的数据集的编程技术
调试你的mapreduce.
算法检查键值对如何穿过不同的阶段始终有用。要检查数据的移动,请在地图中设置断点并减少函数。断点停止执行mapreduce.
,允许您检查相关变量的当前状态,如KeyValueStore
或者验证者
.有关更多信息,请参阅调试MapReduce算法.
一些关于优化的建议mapreduce.
在任何平台上的性能是:
最小化对地图函数的调用次数。最简单的方法是增加值阅读
输入数据存储的属性。结果是mapreduce.
将较大的数据块传递给Map函数,并且数据存储耗尽较少的读取。
减少map和reduce函数之间发送的中间数据量。一种方法是使用独特的
在地图中结合类似密钥的映射功能。看使用mapReduce计算组的均值有关该技术的一个例子。