阅读和分析Hadoop序列文件
这个例子展示了如何创建一个包含键值序列文件数据的数据存储。然后,您可以读取和处理数据的一个街区。序列文件的输出mapreduce
使用Hadoop的操作®。
适当的环境变量设置为Hadoop安装的位置。在这种情况下,设置MATLAB_HADOOP_INSTALL
环境变量。
setenv (“MATLAB_HADOOP_INSTALL”,“/ mypath / hadoop-folder”)
hadoop-folder
是文件夹Hadoop是安装在哪里mypath
是文件夹的路径。
从示例文件创建一个数据存储,mapredout.seq
,使用数据存储
函数。样例文件包含独特的键代表航空公司代码和相应的值,代表航空公司运营的航班数量。
ds =数据存储(“mapredout.seq”)
ds = KeyValueDatastore属性:文件:{“…\ matlab \ matlab工具箱\ \ demo \ mapredout。seq的}ReadSize: 1键值对文件类型:seq”
数据存储
返回一个KeyValueDatastore
。的数据存储
函数自动确定合适的数据存储创建的类型。
设置ReadSize
6,这样每次调用属性读
读最多六个键-值对。
ds。ReadSize = 6;
读数据的子集ds
使用读
函数在一个而
循环。对于每个子集的数据,计算值的总和。数组中存储每个子集的总和总结
。的而
循环执行,直到hasdata (ds)
返回假
。
金额= [];而hasdata (ds) T =阅读(ds);T。值= cell2mat (T.Value);金额(终端+ 1)=总和(T.Value);结束
查看键-值对阅读的最后一个子集。
T
T =键值________ _____ WN 15931 XE 2357青年志愿849毫升(1)69年318 PA (1)
计算出总数量的所有航空公司运营的航班。
numflights =笔(金额)
numflights = 123523
另请参阅
数据存储
|KeyValueDatastore
|mapreduce
|高