主要内容

帕奎特adatastore.

用于集合镶木地板文件的数据存储

描述

用一个帕奎特adatastore.对象来管理地块文件的集合,每个单独的拼贴文件都适合内存,但整个文件集合不一定适合。你可以创建一个帕奎特adatastore.对象使用帕奎特adatastore.函数,指定其属性,然后使用对象函数导入和处理数据。

创建

描述

例子

PDS.=帕奎特adaTastore(地点创建一个数据存储PDS.从收集的镶木镶嵌文件地点

例子

PDS.=帕奎特adaTastore(地点名称,价值指定其他参数和属性PDS.使用一个或多个名称值对参数。

输入参数

展开全部

数据存储中包含的文件或文件夹,指定为路径或adsfileset.目的。

  • 路径 - 将路径指定为字符向量,字符向量,字符串标量或字符串数​​组的单元格数组,其中包含本地或远程的文件或文件夹的位置。

    • 本地文件或文件夹 - 指定地点作为文件或文件夹的本地路径。如果文件不在当前文件夹中,则本地路径必须指定完整或相对路径。指定文件夹的子文件夹中的文件不会自动包含在数据存储区中。指定本地路径时,可以使用通配符(*)。此字符指定数据存储区包括匹配文件夹中的所有匹配文件或所有文件。

    • 远程文件或文件夹 - 指定地点成为文件或文件夹的完整路径,作为表单的统一资源定位器(URL)HDFS:/// path_to_file。有关更多信息,请参阅使用远程数据

  • dsfileset.对象 - 您也可以指定地点作为一个dsfileset.目的。有关更多信息,请参阅matlab.io.datastore.dsfileset.

什么时候地点表示一个文件夹,数据存储区仅包括支持的文件格式并忽略任何其他格式。金宝app要在数据存储区中指定要包含的文件扩展名的自定义列表,请参阅过滤义财产。

帕奎特adatastore.功能支持金宝app.Parquet.文件格式。

例子:'myfile.parquet'

例子:'../dir/data/myfile.parquet'

例子:{'c:\ dir \ data \ myfile01.parquet','c:\ dir \ data \ myfile02.parquet'}

例子:'s3://bucketname/path_to_files/*.parquet'

名称值对参数

指定可选的逗号分离对名称,价值论点。名称是参数名称和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:'insertumubfolders',真实

包含在数据存储中的扩展,指定为逗号分隔的对组成'fileextensions'和字符矢量,字符向量,字符串标量或字符串数​​组的字符矢量。

  • 如果您未指定'fileextensions', 然后帕奎特adatastore.自动包含所有文件.Parquet..parq.指定路径中的扩展。

  • 如果要将具有非标准文件扩展的镶嵌文件包含在内帕奎特adatastore.,然后明确指定这些扩展。

  • 如果你想创建一个帕奎特adatastore.对于没有任何扩展的文件,请指定'fileextensions'作为空字符向量,''

例子:'fileextensions',{'。镶木地板','。Parq'}

例子:'fileextensions','。myformat'

例子:'fileextensions',''

数据类型:char|细胞|细绳

子文件夹包含标志,指定为逗号分隔的配对'insertumbfolders'真的要么错误的。指定真的包括每个文件夹中的所有文件和子文件夹或错误的仅包含每个文件夹中的文件。

如果您未指定'insertumbfolders',然后默认值是错误的

例子:'insertumubfolders',真实

数据类型:逻辑|双倍的

输出数据类型,指定为逗号分隔对组成'OutputType'和其中一个值:

  • '汽车'- 检测数据存储来自数据存储的输出是否应该是表或根据您是否指定的时间表'rowtimes'名称值对。如果您指定'rowtimes'然后输出是一个时间表;否则,输出是表。

  • '桌子'- 返回A.桌子

  • '时间表'- 返回A.时间表

的价值OutputType.确定由此返回的数据类型预习, 和读物功能。使用此选项结合使用'rowtimes'名称 - 值对以返回时间段帕奎特adatastore.

例子:'OutputType','Timetable'

数据类型:char|细绳

标志以保留变量名称,指定为逗号分隔的配对组成variablenamingrule.和任何一种'调整'要么'保存'

  • '调整'- 转换无效的变量名称(由此确定)isvarname.功能)到有效的matlab®身份标识。

  • '保存'- 保留不具有有效MATLAB标识符的变量名称,例如包含空格和非ASCII字符的变量名称。

从R2019B开始,变量名称和行名可以包含任何字符,包括空格和非ASCII字符。此外,它们可以从任何角色开始,而不仅仅是字母。变量和行名不必是有效的matlab标识符(由此确定)isvarname.功能)。要保留这些变量名称和行名称,请设置值variablenamingrule.'保存'

数据类型:char|细绳

备用文件系统根路径,指定为逗号分隔对组成'alternedfilesystemroots'和字符串矢量或单元格数组。采用'alternedfilesystemroots'在本地计算机上创建数据存储,但需要访问和处理另一台计算机上的数据(可能是不同的操作系统)。此外,当使用并行计算工具箱™和该数据处理数据时MATLAB并行服务器™,数据存储在本地计算机上,使用不同平台云或群集计算机上可用的数据副本,您必须使用'alternedfilesystemroots'要关联根路径。

  • 要关联一组等同于彼此的根路径,请指定'alternedfilesystemroots'作为串矢量。例如,

    [“z:\ datasets”,“/ mynetwork / datasets”]

  • 要关联多组等同于数据存储的根路径,请指定'alternedfilesystemroots'作为包含多行的单元数组,其中每行代表一组等效根路径。将单元格数组中的每一行指定为字符串向量或字符向量的小区数组。例如:

    • 指定'alternedfilesystemroots'作为串向量的单元阵列。

      {[“z:\ datasets”,“/ mynetwork / datasets”]; ... [y:\ datasets“,”/ mynetwork2 / datasets“,”s:\ datasets“]}

    • 或者,指定'alternedfilesystemroots'作为字符向量的单元阵列的单元阵列。

      {{'z:\ datasets','/ mynetwork / datasets'}; ... {'y:\ datasets','/ mynetwork2 / datasets','s:\ datasets'}}

的价值'alternedfilesystemroots'必须满足这些条件:

  • 包含一个或多个行,其中每行指定一组等效根路径。

  • 每行指定多个根路径,每个根路径必须至少包含两个字符。

  • 根路径是唯一的,不是彼此的子文件夹。

  • 包含至少一个点指向文件位置的根路径条目。

有关更多信息,请参阅设置数据存储,用于处理不同的机器或群集

例子:[“z:\ datasets”,“/ mynetwork / datasets”]

数据类型:细绳|细胞

特性

展开全部

帕奎特adatastore.属性描述了数据存储对象中文件的格式,并控制如何从数据存储读取数据。除了文件属性,您可以指定值帕奎特adatastore.使用名称值对参数创建数据存储对象时属性。要在创建对象后查看或修改属性,请使用点表示法。

数据存储中包含的文件,被解析为字符向量或字符串数​​组的单元格数组,其中每个字符向量或字符串是文件的完整路径。这地点参数定义这些文件。

单元格数组中指定的第一个文件确定数据存储区中所有文件的变量名称和格式信息。

例子:{'c:\ dir \ data \ file1.ext';'c:\ dir \ data \ file2.ext'}

数据类型:细胞|细绳

此属性是只读的。

用于构造数据存储的文件夹,作为字符向量的单元格数组返回。电池阵列定向为列向量。每个字符向量是包含数据文件的文件夹的路径。这地点争论在帕奎特adatastore.数据存储功能定义文件夹创建数据存储时。

文件夹修改时,属性已重置文件A的财产帕奎特adatastore.目的。

数据类型:细胞

呼叫中读取的数据量功能,指定为'rowgroup''文件',或一个正整数。

  • 'rowgroup'- 每个电话读取条例文件的行组中指定的行数。要获取行组中的行数,请参阅Rowgrouphyights.财产的财产Parquetinfo.目的。

  • '文件'- 每个电话读取一个文件中的所有数据。

  • 正整数 - 每次呼叫读取最多阅读行。

当你改变时阅读从一个正整数到'文件'要么'rowgroup'或者反之亦然,MATLAB将数据存储重置为未读的状态,其中没有从中读取数据。

数据类型:双倍的|char|细绳

数据存储区中的变量名称,指定为字符向量,字符向量,字符串标量或字符串数​​组的单元格数组。按顺序指定变量名称。如果未指定变量名称,则数据存储区将从第一个文件中的第一个非主线行检测到它们。您可以指定variablenames.然而,具有字符向量或字符串标量,但数据存储区将属性值转换为字符向量的单元格数组。修改了variablenames.属性,新变量名称的数量必须与原始变量名称的数量匹配。

要支持金宝app无效的MATLAB标识符作为变量名称,例如包含空格和非ASCII字符的变量名称,请设置值variablenamingrule.参数到'保存'

如果readvariablenames.错误的, 然后variablenames.默认为{'var1','var2',...}

例子:{'time','日期','数量'}

数据类型:char|细胞|细绳

从文件中读取的变量,指定为字符向量或字符串数​​组的单元数组,其中每个字符向量或字符串包含一个变量的名称。您可以按任何顺序指定变量名称。

要支持金宝app无效的MATLAB标识符作为变量名称,例如包含空格和非ASCII字符的变量名称,请设置值variablenamingrule.参数到'保存'

例子:{'var3','var7','var4'}

数据类型:细胞|细绳

行次数变量的名称,指定为逗号分隔对'rowtimes'和一个变量名称(例如“日期”)或可变指数(例如3.)。

rowtimes.是与时间表相关的参数。时间表的每一行与时间相关联,该时间被捕获在时间向量的时间向量中。指定的变量rowtimes.必须包含一个约会时间或者期间向量。

如果是值'OutputType''时间表',但你没有指定'rowtimes', 然后帕奎特adatastore.使用第一个约会时间要么期间变量作为时间表的行时间。

此属性是只读的。

写入的格式列表,作为字符串的行向金宝app量返回。此属性指定使用时可能的输出格式reliteall.从数据存储区写入输出文件。

数据类型:细绳

此属性是只读的。

默认输出格式,作为字符串标量返回。此属性指定使用时的默认格式reliteall.从数据存储区写入输出文件。

数据类型:细绳

对象功能

哈迪塔 确定数据是否可用读取
numpartitions. 数据存储区分区数量
划分 分区数据存储
预习 在数据存储区中预览数据子集
在数据存储区中读取数据
读物 阅读数据存储中的所有数据
reliteall. 将数据存储写入文件
重置 将数据存储重置为初始状态
转变 转换数据存储
结合 将数据与多个数据存储组合
是可分派的 确定数据存储是否已分配
isShufflable. 确定数据存储是否会破坏

例子

全部收缩

创建一个帕奎特adatastore.包含该文件的对象中断.Parquet.Parquet.

PDS = PARQUETDATASTORE('中断.Parquet'
pds = parquetdatastore与属性:文件:{'... / devel / bat / bdoc21a / build / matlab / toolbox / matlab / demos / sutages.parquet'}文件夹:{'/ mathworks / devel / bat / bdoc21a / build /MATLAB / TOOLBOX / MATLAB / DEMOS'} VariaBlename:{1x6 COLL} SELISENTVARIABLENAMES:{1x6 COLL} READSIZE:'ROWGROUP'OutputType:'table'Rowimes:[] lexedFileSystemroots:{} supported金宝appOutputFormats:[1x6字符串] DefaultOutPutFormat:“Parquet”variablenamingrule:'修改'

创建示例拼贴文件的数据存储,然后使用不同的文件读取数据阅读价值观。

创建一个数据存储中断.Parquet.Parquet., 放阅读10.行,然后从数据存储读取。的价值阅读确定每个调用从数据存储读取多少行数据功能。

PDS = PARQUETDATASTORE('中断.Parquet''阅读',10);读(PDS)
ans =.10×6表地区OutageTime客户流失RestorationTime原因___________ ____________________ ______ __________ ____________________ _________________ “西南” 01  -  2月 -  2002年十二时十八分00秒458.98 1.8202e + 06 07  -  2月 -  2002年16:50:00 “冬季风暴” “东南” 23月-2003 00:49:00 530.14 2.1204E + 05 Nat“冬季风暴”“Southeast”07-Feb-2003 21:15:00 289.4 1.4294E + 05 17-Feb-2003 08:14:00“冬季风暴”“West“06-APR-2004 05:44:00 434.81 3.4037E + 05 06-APR-2004 06:10:00”设备故障“”Midwest“16-Mar-2002 06:18:00 186.44 2.1275E + 05 18-MAR-2002 23:23:00“严重风暴”“West”18-jun-2003 02:49:00 0 0 18-jun-2003 10:54:00“攻击”“West”20-2004-2004-2004年20月14日:39:00 231.29南20-jun-2004 19:16:00“设备故障”“West”06-jun-2002 19:28:00 311.86 Nan 07-jun-2002 00:51:00“设备故障”“东北“16-jul-2003 16:23:00 239.93 49434 17-jul-2003 01:12:00”Fire“”Midwest“27-Sep-2004 11:09:00 216.72 66104 27-Sep-2004 16:37:00“设备故障”

设定阅读财产价值'文件'并从数据存储读取。每一个电话函数从数据存储读取所有数据。

pds.readsize =.'文件';数据=读取(PD)
数据=1468×6表地区OutageTime客户流失RestorationTime原因___________ ____________________ ______ __________ ____________________ _________________ “西南” 01  -  2月 -  2002年十二时十八分00秒458.98 1.8202e + 06 07  -  2月 -  2002年16:50:00 “冬季风暴” “东南” 23月-2003 00:49:00 530.14 2.1204E + 05 Nat“冬季风暴”“Southeast”07-Feb-2003 21:15:00 289.4 1.4294E + 05 17-Feb-2003 08:14:00“冬季风暴”“West“06-APR-2004 05:44:00 434.81 3.4037E + 05 06-APR-2004 06:10:00”设备故障“”Midwest“16-Mar-2002 06:18:00 186.44 2.1275E + 05 18-MAR-2002 23:23:00“严重风暴”“West”18-jun-2003 02:49:00 0 0 18-jun-2003 10:54:00“攻击”“West”20-2004-2004-2004年20月14日:39:00 231.29南20-jun-2004 19:16:00“设备故障”“West”06-jun-2002 19:28:00 311.86 Nan 07-jun-2002 00:51:00“设备故障”“东北“16-jul-2003 16:23:00 239.93 49434 17-jul-2003 01:12:00”Fire“”Midwest“27-Sep-2004 11:09:00 216.72 66104 27-Sep-2004 16:37:00“设备故障”“Southeast”05-Sep-2004 17:48:00 73.387 36073 05-Sep-2004 20:46:00“设备故障”“西部”21-5月21日 -  2004年2月24日45:00 159.99南22-5月 -  2004年04:23:00“设备故障”“东南”01-SEP-2002 18:22:00 95.917 36759 01-Sep-2002 19:12:00“严重风暴”“东南”27-Sep-2003 07:32:00 Nan 3.5517E + 05 04-OCT-2003 07:02:00“严重风暴”“西方”12-11月12日-2003 06:12:00 254.09 9.2429E + 05 17-11-2003 02:04:00“冬季风暴”“东北”18-Sep-2004 05:54:00 0 0 NAT“设备故障”⋮

您还可以设置值阅读财产'rowgroup'。有关更多信息,请参阅阅读财产的财产帕奎特adatastore.对象参考页面。

使用OutputType.rowtimes.名称 - 值对制作帕奎特adatastore.返回时间表而不是表格。

创建一个数据存储Airlinesmall.Parquet.。指定'OutputType'名称 - 值对作为'时间表'

PDS = PARQUETDATASTORE('airlinesmall.parquet''OutputType''时间表');预览(PDS)
ans =.8×26时间表日期星期几DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum TailNum ActualElapsedTime CRSElapsedTime开播ArrDelay DepDelay产地目标距离TaxiIn TaxiOut取消CancellationCode改行CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay ___________ _________ ____________________ ____________________ ____________________ ____________________ _____________ _________ _______ _________________ ______________ _______ ________ ________ ______ _____ ________ _______ _______ _________ ________________ ________ ___________________________________________________ 21-OCT-1987 3 21-OCT-1987 06:42:00 21-OCT-1987 06:30:00 21-OCT-1987 07:35:00 21-OCT-1987:27:00“PS”1503“NA”3180 SEC 3420秒3180秒32秒“SJC”“SJC”308纳米·南·秒假“NA”假楠秒南SEC NaN Sec Nan Sec Nan Sec 26-Oct-1987 1 26-oct-1987 10:21:00 26-Oct-1987 10:20:00 26-Oct-1987 11:24:00 26-101:24:00-1987 11:16:00“PS”1550“NA”3780 SEC 3360秒南SEC 480 SEC 60秒“SJC”“BER”296纳米南秒假“NA”假楠秒南秒南秒南赤秒23-OCT-1987 5 23-OCT-1987 20:55:00 23-OCT-1987 20:35:00 23-10月23日22:18:00 23-10:00-1987 21:57:00“PS”1589“NA”4980 SEC 4920 SEC 4920秒钟秒1260秒1200秒“SAN”“SMF”480纳秒南秒假“na”假南秒南秒南秒南赤秒23-oct-1987 5 23-oct-1987 13:32:00 23-oct-1987 13:20:00 23-oct-1987年14:31:00 23-101:00-1987 14:18:00“PS”1655“NA”3540秒3480秒3480秒3480秒秒780秒720秒“Bur”SJC“296南·秒南秒假”NA“假楠秒钟南南仲南南赤秒22-oct-1987 4 22-oct-1987 06:29:00 22-oct-1987 06:30:00 22-OCT-1987 07:46:00 22-107:46:00 22-107:46:00 22-OCT-198707:42:00“PS”1702“NA”4620 SEC 4320秒420秒240秒-60秒“SMF”“LAX”373NAN SEC NAN SER假“NA”假NaN秒Nan Sec NaN Sec Nan Sec Nan Sec 28-oct-1987 3 28-oct-1987 14:46:00 28-Oct-1987 13:43:00 28-Oct-1987 15:47:00 28-Oct-1987 14:48:00“PS”1729“NA“3660 SEC 3900 SEC 3540秒3780秒”LAX“SJC”308 NaN SEC NaN SEC假“NA”假南秒南秒南秒南赤秒08-OCT-1987 4 08-OCT-1987 09:28:00 08-OCT-1987 09:30:00 08-OCT-1987 10:52:00 08-OCT-1987 10:49:00“PS”1763“NA”5040 SEC 4740 SEC NUN SEC 180 SEC -120 SEC“SAN”SFO“SFO”447南·南秒 false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 10-Oct-1987 6 10-Oct-1987 08:59:00 10-Oct-1987 09:00:00 10-Oct-1987 11:34:00 10-Oct-1987 11:23:00 "PS" 1800 "NA" 9300 sec 8580 sec NaN sec 660 sec -60 sec "SEA" "LAX" 954 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec

当您不指定时'rowtimes'帕奎特adatastore.使用第一个DateTime或持续时间变量作为行次数。在这种情况下,日期变量用于行时间。

指定'rowtimes'选项使用到达时间(arttime.)作为行时间,而不是航班日期。

PDS = PARQUETDATASTORE('airlinesmall.parquet''OutputType''时间表''rowtimes''Arr Time');预览(PDS)
ans =.8×26时间表ArrTime日期DAYOFWEEK DepTime CRSDepTime CRSArrTime UniqueCarrier FlightNum TailNum ActualElapsedTime CRSElapsedTime开播ArrDelay DepDelay产地目标距离TaxiIn TaxiOut取消CancellationCode改行CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay ____________________ ___________ _________ ____________________ ____________________ ____________________ _____________ _________ _______ _________________ ______________ _______ ________ ________ ______ _____ ________ _______ _______ _________ ________________ ________ ___________________________________________________ ________________OR_______ 07:35:00 21-OCT-1987 3 21-OCT-1987 06:42:00 21-OCT-1987 06:30:00 21-OCT-1987 07:27:00“PS”1503“NA”3180秒3420秒= SEC 480秒720秒“LAX”“SJC”308纳米·南·秒假“NA”假南赤秒南谢南·南赤秒26-oct-1987 11:24:00 26-OCT-1987 1 26-OCT-1987 10:21:00 26-OCT-1987 10:20:00 26-OCT-1987 11:16:00“PS”1550“NA”3780 SEC 3360秒南SEC 480 SEC 60秒“SJC”“BER”296 NaN SEC NaN SER假“NA”假南秒南SEC NaN Sec Nan Num Nan Sec 23-Oct-1987 22:18:00 23-OCT-1987 5 23-OCT-1987 5 23-OCT-1987 5 23-OCT-1987 5-1987 20:5:00 23-10月23日 -  1987年20:35:00 23-10月21日21:57:00“PS”1589“NA”4980 SEC 4920 SEC 4920秒钟秒1260秒1200秒“SAN”“SMF”480纳米南秒假“Na”假南秒南秒南秒南赤秒23-oct-1987 14:31:00 23-Oct-1987 5 23-Oct-1987 13:32:00 23-OCT-1987年13:20:00 23-101-1987 14:18:00“PS”1655“NA”3540秒3480秒3480秒钟秒780秒720秒“Bur”SJC“296南秒南秒假”NA“假楠秒钟南南仲琴南仲塞南仲二章22-oct-1987 07:46:00 22-OCT-1987 4 22-OCT-1987 06:29:00 22-OCT-1987 06:30:00 22-10月06:30:00 22-10月1日-198707:42:00“PS”1702“NA”4620 SEC 4320秒420秒240秒-60秒“SMF”“LAX”373NAN SEC NAN SER假“NA”假NaN秒Nan Sec NaN Sec Nan Sec Nan Sec 28-oct-1987 15:47:00 28-Oct-1987 3 28-Oct-1987 14:46:00 28-Oct-1987 13:43:00 28-Oct-1987 14:48:00“PS”1729“NA“3660 SEC 3900 SEC 3540秒3780秒”LAX“SJC”308南秒南秒假“NA”假楠秒南秒南秒南赤秒SEC 08-OCT-1987 10:52:00 08-OCT-1987 4 08-OCT-1987 09:28:00 08-OCT-1987 09:30:00 08-OCT-1987 10:49:00“PS”1763“NA”5040 SEC 4740秒4740秒钟秒180秒-120秒“SAN”SFO“447南·南·秒 false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 10-Oct-1987 11:34:00 10-Oct-1987 6 10-Oct-1987 08:59:00 10-Oct-1987 09:00:00 10-Oct-1987 11:23:00 "PS" 1800 "NA" 9300 sec 8580 sec NaN sec 660 sec -60 sec "SEA" "LAX" 954 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec

限制

如果你使用帕奎德书要么帕奎特adatastore.要读取文件,那么结果可能与原始表格的格式或内容相同。有关更多信息,请参阅Apache Parquet数据类型映射

在R2019A介绍