主要内容

阅读和分析Hadoop序列文件

这个例子展示了如何创建一个包含键值序列文件数据的数据存储。然后,您可以读取和处理数据的一个街区。序列文件的输出mapreduce使用Hadoop的操作®

适当的环境变量设置为Hadoop安装的位置。在这种情况下,设置MATLAB_HADOOP_INSTALL环境变量。

setenv (“MATLAB_HADOOP_INSTALL”,“/ mypath / hadoop-folder”)

hadoop-folder是文件夹Hadoop是安装在哪里mypath是文件夹的路径。

从示例文件创建一个数据存储,mapredout.seq,使用数据存储函数。样例文件包含独特的键代表航空公司代码和相应的值,代表航空公司运营的航班数量。

ds =数据存储(“mapredout.seq”)
ds = KeyValueDatastore属性:文件:{“…\ matlab \ matlab工具箱\ \ demo \ mapredout。seq的}ReadSize: 1键值对文件类型:seq”

数据存储返回一个KeyValueDatastore。的数据存储函数自动确定合适的数据存储创建的类型。

设置ReadSize6,这样每次调用属性读最多六个键-值对。

ds。ReadSize = 6;

读数据的子集ds使用函数在一个循环。对于每个子集的数据,计算值的总和。数组中存储每个子集的总和总结。的循环执行,直到hasdata (ds)返回

金额= [];hasdata (ds) T =阅读(ds);T。值= cell2mat (T.Value);金额(终端+ 1)=总和(T.Value);结束

查看键-值对阅读的最后一个子集。

T
T =键值________ _____ WN 15931 XE 2357青年志愿849毫升(1)69年318 PA (1)

计算出总数量的所有航空公司运营的航班。

numflights =笔(金额)
numflights = 123523

另请参阅

|||

相关的话题