编程技术分析不适合在内存中的数据集
调试MapReduce的
算法来检查键值对通过不同的阶段动怎么总是有用的。为了检验数据的地图中的运动,设置断点和减少功能。的断点停止执行MapReduce的
,让你检查相关变量的当前状态,如KeyValueStore
要么ValueIterator
。欲了解更多信息,请参阅调试的MapReduce算法。
为了优化的一些建议MapReduce的
在任何平台上表现是:
最小化调用地图功能的数量。最简单的方法是增加的价值READSIZE
输入数据存储的性能。其结果是,MapReduce的
传递较大的数据到地图功能的块,并且数据存储区消耗较少的读取。
减少地图之间发送中间数据的量和减少的功能。一种方法是使用独特
一个地图功能里面类似的按键组合。看到计算是指由集团使用的MapReduce这种技术的一个例子。