这个示例展示了如何为包含表格数据的大型文本文件创建数据存储,然后每次读取和处理一个块或一个文件的数据。
从示例文件创建数据存储airlinesmall.csv
使用tabularTextDatastore
函数。在创建数据存储时,可以指定文本,NA
,则视为缺失数据。
ds = tabularTextDatastore (“airlinesmall.csv”,“TreatAsMissing”,“NA”);
通过修改数据存储的属性,可以修改数据存储的属性。修改MissingValue
属性指定缺失值视为0。
ds。MissingValue = 0;
在本例中,为到达延迟选择变量,ArrDelay
,作为利息的变量。
ds。SelectedVariableNames =“ArrDelay”;
的预览数据预览
函数。该功能不影响数据存储的状态。
data =预览(ds)
data =8×1表ArrDelay ________ 8 8 21 13 4 59 3 11
默认情况下,读
读取的TabularTextDatastore
一次两万行。在每个调用中读取不同数量的行读
,修改ReadSize
的属性ds
.
ds。ReadSize = 15000;
从其中读取数据子集ds
使用读
函数在一个而
循环。循环执行到hasdata (ds)
返回假
.
金额= [];数量= [];而hasdata(ds) T = read(ds);金额(终端+ 1)=总和(T.ArrDelay);结束计数(+ 1)=长度(T.ArrDelay);结束
计算平均到达延迟
avgArrivalDelay =笔(金额)/笔(计数)
avgArrivalDelay = 6.9670
重置数据存储以允许重新读取数据。
重置(ds)
一个数据存储可以包含多个文件,每个文件具有不同数量的行。属性,可以从数据存储中一次读取一个完整的文件ReadSize
财产“文件”
.
ds。ReadSize =“文件”;
当你改变的值ReadSize
从一个数字到“文件”
反之亦然,MATLAB重置数据存储。
读取ds
使用读
函数在一个而
循环,并计算平均到达延迟。
金额= [];数量= [];而hasdata(ds) T = read(ds);金额(终端+ 1)=总和(T.ArrDelay);结束计数(+ 1)=长度(T.ArrDelay);结束avgArrivalDelay =笔(金额)/笔(计数)
avgArrivalDelay = 6.9670
tabularTextDatastore
|高
|mapreduce