使用MapReduce技术处理500 gb的服务器日志

这里我使用MapReduce功能在并行处理工具箱处理几百gb的服务器日志从我们的网站。我希望能够看到某些数量的每分钟计数和过滤数据寻找某些特殊请求我们的网站。我从小做起,算法首先使用一个文件,没有并行处理。但MapReduce让你写它,它会在任何大小和并行处理工作。

最终花了50分钟处理一天的数据(72 gb),大约14小时8天(562 gb)。我想我会剖面小数据集问题看到其支出,但怀疑所有文件I / O。

> >总和(minuteResults.totalRequests) ans = 1.3388 e + 09年> >栏(minuteResults。timeMinute minuteResults.totalRequests)


功能覆盖在这个视频中包括:


播放视频全屏模式更好的浏览体验。

|
  • 打印

评论

留下你的评论,请点击在这里MathWorks账户登录或创建一个新的。