主要内容

parquetDatastore

用于收集Parquet文件的数据存储

描述

使用一个ParquetDatastore对象来管理Parquet文件集合,其中每个单独的Parquet文件都适合内存,但整个文件集合不一定适合。您可以创建ParquetDatastore对象使用parquetDatastore函数,指定其属性,然后使用对象函数导入和处理数据。

创建

描述

例子

pds= parquetDatastore (位置创建一个数据存储pds指定的Parquet文件集合中的位置

例子

pds= parquetDatastore (位置名称,值的附加参数和属性pds使用一个或多个名称-值对参数。

输入参数

全部展开

包含在数据存储中的文件或文件夹,指定为文件集对象作为文件路径,或作为DsFileSet对象。

  • 文件集object -可以指定位置作为一个文件集对象。指定位置为文件集对象相比于指定路径或DsFileSet对象。有关更多信息,请参见matlab.io.datastore.FileSet

  • 文件路径—您可以将单个文件路径指定为字符向量或字符串标量。您可以将多个文件路径指定为字符向量的单元格数组或字符串数组。

  • DsFileSetobject -可以指定DsFileSet对象。有关更多信息,请参见matlab.io.datastore.DsFileSet

文件或文件夹可以是本地的或远程的:

  • 本地文件或文件夹—指定文件或文件夹的本地路径。如果文件不在当前文件夹中,则指定完整路径或相对路径。指定文件夹的子文件夹中的文件不会自动包含在数据存储中。当指定本地路径时,可以使用通配符*。此字符指定数据存储包括所有匹配文件或匹配文件夹中的所有文件。

  • 远程文件或文件夹——指定远程文件或文件夹的完整路径作为格式的统一资源定位符(URL)hdfs: / / /path_to_file.有关更多信息,请参见使用远程数据

指定文件夹时,数据存储只包括支持的文件格式的文件,而忽略任何其他格式的文件。金宝app若要指定要包含在数据存储中的自定义文件扩展名列表,请参见FileExtensions财产。

parquetDatastore函数支持金宝app.parquet文件格式。

例子:“myfile.parquet”

例子:“. . / dir /数据/ myfile.parquet”

例子:[" C: \ dir \ data \ myfile01.parquet”,“C: \ dir \ data \ myfile02.parquet”)

例子:“s3: / / bucketname / path_to_files / * .parquet”

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字在报价。

例子:“IncludeSubfolders”,真的

要包含在数据存储中的扩展名,指定为由“FileExtensions”字符向量,字符向量的单元格数组,字符串标量,或者字符串数组。

  • 如果您没有指定“FileExtensions”,然后parquetDatastore自动包含所有文件.parquet而且.parq指定路径下的扩展。

  • 的文件扩展名中包含具有非标准文件扩展名的拼花文件parquetDatastore,然后显式地指定这些扩展。

  • 如果你想创建一个parquetDatastore对于没有任何扩展名的文件,请指定“FileExtensions”作为一个空的字符向量,

例子:“FileExtensions”(“.parquet”、“.parq”)

例子:“FileExtensions”、“.myformat”

例子:“FileExtensions”、“

数据类型:字符|细胞|字符串

子文件夹包含标志,指定为名称-值参数,由“IncludeSubfolders”而且真正的.指定真正的在每个文件夹或中包含所有文件和子文件夹只包括每个文件夹中的文件。

如果您没有指定“IncludeSubfolders”,则默认值为

例子:“IncludeSubfolders”,真的

数据类型:逻辑|

输出数据类型,指定为由“OutputType”其中一个价值观是:

  • “汽车”属性,检测数据存储的输出是表还是时间表“RowTimes”名称-值参数。如果你指定“RowTimes”然后输出是一个时间表;否则,输出是一个表。

  • “表”—返回表格

  • “时间表”—返回时间表

的价值OutputType类返回的数据类型预览,readall功能。方法结合使用此选项“RowTimes”返回时间表的名称-值对ParquetDatastore

例子:“OutputType”、“时间表”

数据类型:字符|字符串

标记以保留变量名,指定为任意一种“修改”“保存”

  • “修改”-转换无效的变量名(由isvarname函数)到有效的MATLAB®标识符。

  • “保存”-保留不是有效MATLAB标识符的变量名,例如包含空格和非ascii字符的变量名。

从R2019b开始,变量名和行名可以包含任何字符,包括空格和非ascii字符。此外,他们可以从任何字符开始,而不仅仅是字母。变量名和行名不必是有效的MATLAB标识符(由isvarname功能)。若要保留这些变量名和行名,请设置值VariableNamingRule“保存”.的值时,变量名不会刷新VariableNamingRule“修改”“保存”

数据类型:字符|字符串

可选文件系统根路径,指定为由“AlternateFileSystemRoots”一个字符串向量或者单元格数组。使用“AlternateFileSystemRoots”在本地机器上创建数据存储,但需要在另一台机器(可能是不同的操作系统)上访问和处理数据。此外,在使用并行计算工具箱™和MATLAB并行服务器,并且数据存储在您的本地机器上,不同平台云或集群机器上可用的数据副本,您必须使用“AlternateFileSystemRoots”关联根路径。

  • 若要关联一组等价的根路径,请指定“AlternateFileSystemRoots”作为一个字符串向量。例如,

    [" Z: \数据集”、“/ mynetwork /数据集”)

  • 若要关联多个与数据存储等效的根路径集,请指定“AlternateFileSystemRoots”作为包含多行的单元格数组,其中每行表示一组等效根路径。将单元格数组中的每一行指定为字符串向量或字符向量的单元格数组。例如:

    • 指定“AlternateFileSystemRoots”作为字符串向量的单元格数组。

      {[Z: \“数据集”、“/ mynetwork /数据集”);…[" Y: \数据集”、“/ mynetwork2 /数据集”、“年代:\数据集”)}

    • 另外,指定“AlternateFileSystemRoots”作为字符向量的单元格数组的单元格数组。

      {{“Z: \数据集”、“mynetwork /数据集”},…{“Y: \数据集”,“mynetwork2 /数据集”,年代:\数据集的}}

的价值“AlternateFileSystemRoots”必须满足这些条件:

  • 包含一行或多行,其中每行指定一组等效的根路径。

  • 每行指定多个根路径,每个根路径至少包含两个字符。

  • 根路径是唯一的,并且不是彼此的子文件夹。

  • 包含至少一个指向文件位置的根路径条目。

有关更多信息,请参见为不同机器或集群上的处理设置数据存储

例子:[" Z: \数据集”、“/ mynetwork /数据集”)

数据类型:字符串|细胞

属性

全部展开

ParquetDatastore属性描述数据存储对象中文件的格式,并控制如何从数据存储中读取数据。除了文件属性的值时,可以指定ParquetDatastore属性,在创建数据存储对象时使用名称-值对参数。要在创建对象后查看或修改属性,请使用点表示法。

包含在数据存储中的文件,解析为字符向量的单元格数组或字符串数组,其中每个字符向量或字符串都是文件的完整路径。的位置参数定义这些文件。

单元格数组中指定的第一个文件确定数据存储中所有文件的变量名和格式信息。

例子:{“C: \ dir \ data \ file1.ext”;“C: \ dir \ data \ file2.ext”}

数据类型:细胞|字符串

此属性是只读的。

用于构造数据存储的文件夹,作为字符向量的单元格数组返回。单元格数组以列向量为方向。每个字符向量都是指向包含数据文件的文件夹的路径。的位置参数中的参数parquetDatastore而且数据存储函数定义文件夹创建数据存储时。

文件夹属性时,将重置文件的属性ParquetDatastore对象。

数据类型:细胞

筛选器来选择要导入的行,指定为matlab.io.RowFilter对象。的matlab.io.RowFilter对象指定每行必须满足的条件,以便包含在输出表或时间表中。如果您没有指定RowFilter,然后parquetDatastore从输入Parquet文件中导入所有行。

类调用中要读取的数据量函数,指定为“rowgroup”“文件”,或正整数。

  • “rowgroup”-每次致电读取Parquet文件的行组中指定的行数。要获取行组中的行数,请参见RowGroupHeights的属性ParquetInfo对象。

  • “文件”-每次致电读取一个文件中的所有数据。

  • 正整数-每次调用读取最大值为ReadSize行。

当你改变ReadSize从正整数到“文件”“rowgroup”,或反之亦然,MATLAB将数据存储重置为未读状态,即没有从其中读取数据。

数据类型:|字符|字符串

数据存储中的变量名称,指定为字符向量、字符向量的单元格数组、字符串标量或字符串数组。按照它们在文件中出现的顺序指定变量名。如果没有指定变量名,则数据存储将从第一个文件中的第一个非标题行检测它们。你可以指定VariableNames但是,对于字符向量或字符串标量,数据存储将属性值转换并存储为字符向量的单元格数组。当修改VariableNames属性时,新变量名的数量必须与原始变量名的数量匹配。

属性的金宝app值可支持无效的MATLAB标识符作为变量名,例如包含空格和非ascii字符的变量名VariableNamingRule参数“保存”

如果ReadVariableNames,然后VariableNames默认为[" Var1”、“Var2”…]

例子:“时间”,“日期”,“数量”)

数据类型:字符|细胞|字符串

要从文件中读取的变量,指定为字符向量的单元格数组或字符串数组,其中每个字符向量或字符串包含一个变量的名称。可以以任意顺序指定变量名。

属性的金宝app值可支持无效的MATLAB标识符作为变量名,例如包含空格和非ascii字符的变量名VariableNamingRule参数“保存”

例子:[" Var3”、“Var7”、“Var4”)

数据类型:细胞|字符串

行次数变量的名称,指定为由“RowTimes”和变量名(例如“日期”)或变量索引(例如3.).

RowTimes与时间表相关的参数。时间表的每一行都与一个时间相关联,该时间在时间表的时间向量中捕获。中指定的变量。RowTimes必须包含datetime或者一个持续时间向量。

如果的值“OutputType”“时间表”,但你没有具体说明“RowTimes”,然后ParquetDatastore使用第一个datetime持续时间变量为时间表的行时间。

此属性是只读的。

支持写入的格式,金宝app作为字符串的行向量返回。此属性指定使用时可能的输出格式writeall从数据存储写入输出文件。

此属性是只读的。

默认输出格式,作为字符串标量返回。此属性指定使用时的默认格式writeall从数据存储写入输出文件。

数据类型:字符串

对象的功能

hasdata 确定是否有数据可以读取
numpartitions 数据存储分区数
分区 对数据存储进行分区
预览 预览数据存储中的数据子集
读取数据存储中的数据
readall 读取数据存储中的所有数据
writeall 将数据存储写入文件
重置 将数据存储重置为初始状态
变换 变换数据存储
结合 组合来自多个数据存储的数据
isPartitionable 确定数据存储是否可分区
isSubsettable 确定数据存储是否可子集
isShuffleable 确定数据存储是否可洗牌

例子

全部折叠

使用FileSet对象或文件路径创建parqueretdatastore对象。

创建一个文件集对象,其中包含文件outages.parquet.创建一个parquetDatastore对象。

fs = matlab.io.datastore.FileSet(“outages.parquet”);pds = parqueretdatastore (fs)
pds = parqueretdatastore属性:Files:{'…\matlab\toolbox\matlab\demos\outages. pds = parqueretdatastore属性:Files:{'…parquet'}文件夹:{'…\matlab\toolbox\matlab\demos} VariableNames: {1x6 cell} SelectedVariableNames: {1x6 cell} ReadSize: 'rowgroup' OutputType: 'table' RowTimes: [] AlternateFileSystemRoots: {} Su金宝apppportedOutputFormats: ["txt" "csv" "xlsx" "xls"…DefaultOutputFormat: "parquet"变量:" modify "

或者,您可以使用文件路径来创建您的parquetDatastore对象。

pds = parqueretdatastore (“outages.parquet”);

为示例Parquet文件创建一个数据存储,然后使用不同的方法从该文件中读取数据ReadSize值。

为创建数据存储outages.parquet,设置ReadSize10行,然后从数据存储中读取。的价值ReadSize属性时从数据存储中读取多少行数据函数。

pds = parqueretdatastore (“outages.parquet”“ReadSize”10);阅读(pds)
ans =10×6表区域OutageTime Loss Customers RestorationTime Cause ___________ ____________________ ________________ ____________________ _________________“SouthWest”01-Feb-2002 12:18:00 1.8202e+06 07-Feb-2002 16:50:00“winter storm”“SouthEast”2003年1月23日00:49:00 530.14 2.1204e+05 NaT“winter storm”“SouthEast”07-Feb-2003 21:15:00 289.4 1.4294e+05 17-Feb-2003 08:14:00“winter storm”“West”06- apr -2004 05:44:00 434.81 3.4037e+05 06- apr -2004 06:10:00“equipment fault”“MidWest”2002年3月16日06:18:00 186.44 2.1275e+05 18- 2002年3月23日23:23:00“猛烈风暴”“西部”2003年6月18日02:49:00 00 18- 2003年6月23日14:39:00“袭击”“西部”2004年6月20日19:16:00“设备故障”“西部”06- 2002年6月19 28:00 311.86 NaN 07- 2002年6月00:51:00“设备故障”“东北”2003年7月16日16:23:00 239.93 49434 17- 2003年7月17日01:12:00“火灾”“中西部”2004年9月27日11:09:00 286.72 66104 27- 2004年9月27日16:37:00“设备故障”

设置ReadSize物业价值为"文件”并从数据存储中读取。每次打给函数从数据存储中读取所有数据。

pds。ReadSize =“文件”;数据=读取(pds)
data =1468×6表区域OutageTime Loss Customers RestorationTime Cause ___________ ____________________ ________________ ____________________ _________________“SouthWest”01-Feb-2002 12:18:00 1.8202e+06 07-Feb-2002 16:50:00“winter storm”“SouthEast”2003年1月23日00:49:00 530.14 2.1204e+05 NaT“winter storm”“SouthEast”07-Feb-2003 21:15:00 289.4 1.4294e+05 17-Feb-2003 08:14:00“winter storm”“West”06- apr -2004 05:44:00 434.81 3.4037e+05 06- apr -2004 06:10:00“equipment fault”“MidWest”2002年3月16日06:18:00 186.44 2.1275e+05 2002年3月18日23:23:00“猛烈风暴”“西部”2003年6月18日02:49:00 00 2003年6月18日10:54:00“攻击”“西部”2004年6月20日14:39:00“设备故障”“西部”06年6月20日19:28:00 311.86 NaN 07年6月02日00:51:00“设备故障”“东北”2003年7月16日16:23:00 239.93 49434 17- 7月2003年01:12:00“火灾”“中西部”2004年9月27日11:09:00 286.72 66104 27- 9月27日16:37:00“设备故障”“东南”05- 9月04日17:48:00 73.387 36073 05- 9月04日20:46:00“设备故障”“西”2004年5月21日21:45:00 159.99 NaN 22- 2004年5月22日04:23:00“设备故障”“东南”01- 2002年9月17日18:22:00 95.917 36759 01- 2002年9月19:12:00“严重风暴”“东南”2003年9月27日07:32:00 NaN 3.5517e+05 04- 2003年10月07:02:00“严重风暴”“西”2003年11月12日06:12:00 254.09 9.2429e+05 2003年11月17日02:04:00“冬季风暴”“东北”2004年9月18日05:54:00 00 NaT“设备故障”——

的值也可以设置ReadSize财产归"rowgroup”.有关更多信息,请参见ReadSize的属性ParquetDatastore对象引用页。

使用OutputType而且RowTimes要创建的名称-值对ParquetDatastore返回时间表而不是表格。

为创建数据存储airlinesmall.parquet.指定“OutputType"名称-值参数为"时间表".

pds = parqueretdatastore (“airlinesmall.parquet”“OutputType”“时间表”);预览(pds)
ans =12500×26时间表日期DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum TailNum ActualElapsedTime CRSElapsedTime通话时间ArrDelay DepDelay起源桌子距离TaxiIn TaxiOut取消CancellationCode转移CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay  ___________ _________ ____________________ ____________________ ____________________ ____________________ _____________ _________ _______ _________________ ______________ _______ ________ ________ ______ _____________ _______ _______ _________ ________________ ________ ____________ ____________ ________ _____________ _________________ 21 - 10月21 - 1987 3 - 1987年10月- 1987年06:42:00 21 - 10月- 06:30:00 21 - 1987年10月- 1987年07:35:00 21 - 10月- 07:27:00“PS”1503“NA”3180秒3420秒南秒480秒720秒“宽松”“SJC”308南秒南秒假“NA”假南秒南秒南秒南秒南秒26日—1987年10月26 - 1987年1 - 10月10:21:00 10月26日- 10月26 - 1987 10:20:00 - 1987 11:24:00 26 - 10月- 1987年11:16:00“PS”1550“NA”3780秒3360秒南秒480秒60秒“SJC”“钻”296南秒南秒假“NA”假南秒南秒南秒南秒南秒23日- 10月23日- 1987年5 - 1987 20:55:00 23 - 10月- 1987年10月20:35:00 10月23日- 10月23 - 1987 22:18:00 - 1987 21:57:00“PS”1589“NA”4980秒4920秒南秒1260秒1200秒“圣”“SMF”480南秒南秒假“NA”假南秒南秒南秒南秒南秒23日- 10月23日- 1987年5 - 1987 13:32:00 23 - 10月- 1987年10月13:20:00 10月23日- 10月23 - 1987 14:31:00 - 1987 14:18:00“PS”1655“NA”3540秒3480秒南秒780 sec 720 sec "BUR" "SJC" 296 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 22-Oct-1987 4 22-Oct-1987 06:29:00 22-Oct-1987 06:30:00 22-Oct-1987 07:46:00 22-Oct-1987 07:42:00 "PS" 1702 "NA" 4620 sec 4320 sec NaN sec 240 sec -60 sec "SMF" "LAX" 373 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 28-Oct-1987 3 28-Oct-1987 14:46:00 28-Oct-1987 13:43:00 28-Oct-1987 15:47:00 28-Oct-1987 14:48:00 "PS" 1729 "NA" 3660 sec 3900 sec NaN sec 3540 sec 3780 sec "LAX" "SJC" 308 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 08-Oct-1987 4 08-Oct-1987 09:28:00 08-Oct-1987 09:30:00 08-Oct-1987 10:52:00 08-Oct-1987 10:49:00 "PS" 1763 "NA" 5040 sec 4740 sec NaN sec 180 sec -120 sec "SAN" "SFO" 447 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 10-Oct-1987 6 10-Oct-1987 08:59:00 10-Oct-1987 09:00:00 10-Oct-1987 11:34:00 10-Oct-1987 11:23:00 "PS" 1800 "NA" 9300 sec 8580 sec NaN sec 660 sec -60 sec "SEA" "LAX" 954 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 20-Oct-1987 2 20-Oct-1987 18:33:00 20-Oct-1987 18:30:00 20-Oct-1987 19:29:00 20-Oct-1987 19:26:00 "PS" 1831 "NA" 3360 sec 3360 sec NaN sec 180 sec 180 sec "LAX" "SJC" 308 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 15-Oct-1987 4 15-Oct-1987 10:41:00 15-Oct-1987 10:40:00 15-Oct-1987 11:57:00 15-Oct-1987 11:55:00 "PS" 1864 "NA" 4560 sec 4500 sec NaN sec 120 sec 60 sec "SFO" "LAS" 414 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 15-Oct-1987 4 15-Oct-1987 16:08:00 15-Oct-1987 15:53:00 15-Oct-1987 16:56:00 15-Oct-1987 16:40:00 "PS" 1907 "NA" 2880 sec 2820 sec NaN sec 960 sec 900 sec "LAX" "FAT" 209 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 21-Oct-1987 3 21-Oct-1987 09:49:00 21-Oct-1987 09:40:00 21-Oct-1987 10:55:00 21-Oct-1987 10:52:00 "PS" 1939 "NA" 3960 sec 4320 sec NaN sec 180 sec 540 sec "LGB" "SFO" 354 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 22-Oct-1987 4 22-Oct-1987 19:02:00 22-Oct-1987 18:47:00 22-Oct-1987 20:30:00 22-Oct-1987 19:51:00 "PS" 1973 "NA" 5280 sec 3840 sec NaN sec 2340 sec 900 sec "LAX" "OAK" 337 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 16-Oct-1987 5 16-Oct-1987 19:10:00 16-Oct-1987 18:38:00 16-Oct-1987 20:52:00 16-Oct-1987 19:55:00 "TW" 19 "NA" 9720 sec 8220 sec NaN sec 3420 sec 1920 sec "STL" "DEN" 770 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 02-Oct-1987 5 02-Oct-1987 11:30:00 02-Oct-1987 11:33:00 02-Oct-1987 12:37:00 02-Oct-1987 12:37:00 "TW" 59 "NA" 11220 sec 11040 sec NaN sec 0 sec -180 sec "STL" "PHX" 1262 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 30-Oct-1987 5 30-Oct-1987 14:00:00 30-Oct-1987 14:00:00 30-Oct-1987 19:20:00 30-Oct-1987 19:34:00 "TW" 102 "NA" 12000 sec 12840 sec NaN sec -840 sec 0 sec "SNA" "STL" 1570 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec ⋮

当你不指定"RowTimes",parquetDatastore使用第一个日期时间或持续时间变量作为行时间。在这种情况下,日期变量用于行次数。

指定“RowTimes"可选择使用抵港时间(ArrTime),而不是航班日期。

pds = parqueretdatastore (“airlinesmall.parquet”“OutputType”“时间表”“RowTimes”“ArrTime”);预览(pds)
ans =12500×26时间表ArrTime日期DayOfWeek DepTime CRSDepTime CRSArrTime UniqueCarrier FlightNum TailNum ActualElapsedTime CRSElapsedTime通话时间ArrDelay DepDelay起源桌子距离TaxiIn TaxiOut取消CancellationCode转移CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay  ____________________ ___________ _________ ____________________ ____________________ ____________________ _____________ _________ _______ _________________ ______________ _______ ________ ________ ______ _____________ _______ _______ _________ ________________ ________ ____________ ____________ ________ _____________ _________________ 21 - 10月- 1987 07:35:00 21 - 10月21 - 1987 3 - 1987年10月- 1987年06:42:00 21 - 10月- 06:30:00 21 - 10月- 1987 07:27:00“PS”1503“NA”3180秒3420秒南秒480秒720秒“宽松”“SJC”308南秒南秒假“NA”假南秒南秒南秒南秒南秒26日—10月26 - 1987 11:24:00 26 - 10月- 1987年1 - 10月- 1987 10:21:00 26 - 1987 10:20:00 26 - 10月- 1987年10月11:16:00“PS”1550“NA”3780秒3360秒南秒480秒60秒“SJC”“钻”296南秒南秒假“NA”假南秒南秒南秒南秒南秒10月23 - - 1987 22:18:00 23日- 10月23日- 1987年5 - 10月- 1987 20:55:00 10月23日- 10月23 - 1987 20:35:00 - 1987 21:57:00“PS”1589“NA”4980秒4920秒南秒1260秒1200秒“圣”“SMF”480南秒南秒假“NA”假南秒南秒南秒南秒南秒10月23 - - 1987 14:31:00 23日- 10月23日- 1987年5 - 10月- 1987 13:32:00 10月23日- 10月23 - 1987 13:20:00 - 1987 14:18:00“PS”1655“NA”3540秒3480秒南秒780 sec 720 sec "BUR" "SJC" 296 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 22-Oct-1987 07:46:00 22-Oct-1987 4 22-Oct-1987 06:29:00 22-Oct-1987 06:30:00 22-Oct-1987 07:42:00 "PS" 1702 "NA" 4620 sec 4320 sec NaN sec 240 sec -60 sec "SMF" "LAX" 373 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 28-Oct-1987 15:47:00 28-Oct-1987 3 28-Oct-1987 14:46:00 28-Oct-1987 13:43:00 28-Oct-1987 14:48:00 "PS" 1729 "NA" 3660 sec 3900 sec NaN sec 3540 sec 3780 sec "LAX" "SJC" 308 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 08-Oct-1987 10:52:00 08-Oct-1987 4 08-Oct-1987 09:28:00 08-Oct-1987 09:30:00 08-Oct-1987 10:49:00 "PS" 1763 "NA" 5040 sec 4740 sec NaN sec 180 sec -120 sec "SAN" "SFO" 447 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 10-Oct-1987 11:34:00 10-Oct-1987 6 10-Oct-1987 08:59:00 10-Oct-1987 09:00:00 10-Oct-1987 11:23:00 "PS" 1800 "NA" 9300 sec 8580 sec NaN sec 660 sec -60 sec "SEA" "LAX" 954 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 20-Oct-1987 19:29:00 20-Oct-1987 2 20-Oct-1987 18:33:00 20-Oct-1987 18:30:00 20-Oct-1987 19:26:00 "PS" 1831 "NA" 3360 sec 3360 sec NaN sec 180 sec 180 sec "LAX" "SJC" 308 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 15-Oct-1987 11:57:00 15-Oct-1987 4 15-Oct-1987 10:41:00 15-Oct-1987 10:40:00 15-Oct-1987 11:55:00 "PS" 1864 "NA" 4560 sec 4500 sec NaN sec 120 sec 60 sec "SFO" "LAS" 414 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 15-Oct-1987 16:56:00 15-Oct-1987 4 15-Oct-1987 16:08:00 15-Oct-1987 15:53:00 15-Oct-1987 16:40:00 "PS" 1907 "NA" 2880 sec 2820 sec NaN sec 960 sec 900 sec "LAX" "FAT" 209 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 21-Oct-1987 10:55:00 21-Oct-1987 3 21-Oct-1987 09:49:00 21-Oct-1987 09:40:00 21-Oct-1987 10:52:00 "PS" 1939 "NA" 3960 sec 4320 sec NaN sec 180 sec 540 sec "LGB" "SFO" 354 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 22-Oct-1987 20:30:00 22-Oct-1987 4 22-Oct-1987 19:02:00 22-Oct-1987 18:47:00 22-Oct-1987 19:51:00 "PS" 1973 "NA" 5280 sec 3840 sec NaN sec 2340 sec 900 sec "LAX" "OAK" 337 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 16-Oct-1987 20:52:00 16-Oct-1987 5 16-Oct-1987 19:10:00 16-Oct-1987 18:38:00 16-Oct-1987 19:55:00 "TW" 19 "NA" 9720 sec 8220 sec NaN sec 3420 sec 1920 sec "STL" "DEN" 770 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 02-Oct-1987 12:37:00 02-Oct-1987 5 02-Oct-1987 11:30:00 02-Oct-1987 11:33:00 02-Oct-1987 12:37:00 "TW" 59 "NA" 11220 sec 11040 sec NaN sec 0 sec -180 sec "STL" "PHX" 1262 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec 30-Oct-1987 19:20:00 30-Oct-1987 5 30-Oct-1987 14:00:00 30-Oct-1987 14:00:00 30-Oct-1987 19:34:00 "TW" 102 "NA" 12000 sec 12840 sec NaN sec -840 sec 0 sec "SNA" "STL" 1570 NaN sec NaN sec false "NA" false NaN sec NaN sec NaN sec NaN sec NaN sec ⋮

方法有条件地从数据集中选择行RowFilter财产。

属性创建Parquet数据存储outages.parquet文件。查看数据存储的前8行。

pds = parqueretdatastore (“outages.parquet”);预览(pds)
ans =8×6表区域OutageTime Loss Customers RestorationTime Cause ___________ ____________________ ________________ ____________________ _________________“SouthWest”01-Feb-2002 12:18:00 1.8202e+06 07-Feb-2002 16:50:00“winter storm”“SouthEast”2003年1月23日00:49:00 530.14 2.1204e+05 NaT“winter storm”“SouthEast”07-Feb-2003 21:15:00 289.4 1.4294e+05 17-Feb-2003 08:14:00“winter storm”“West”06- apr -2004 05:44:00 434.81 3.4037e+05 06- apr -2004 06:10:00“equipment fault”“MidWest”2002年3月16日06:18:00 186.44 2.1275e+05 2002年3月18日23:23:00“猛烈风暴”“西”2003年6月18日02:49:00 00 2003年6月18日10:54:00“攻击”“西”2004年6月20日14:39:00 231.29 NaN 20- 2004年6月19:16:00“设备故障”“西”06- 2002年6月19:28:00 311.86 NaN 07- 2002年6月00:51:00“设备故障”

属性标识行的行筛选器地区“东北”和一个导致“暴风雪”.然后,设置RowFilter属性。预览数据存储,注意数据存储只包含满足筛选条件的行。

Rf = rowfilter(pds);Filter = rf。地区= =“东北”与射频。导致==“暴风雪”;pds。RowFilter =过滤器;预览(pds)
ans =8×6表区域OutageTime Loss Customers RestorationTime Cause ___________ ____________________ ________________ ____________________ ______________“NorthEast”2004年11月13日10:42:00 NaN 1.4227e+05年11月19日02:31:00“winter storm”“NorthEast”2004年12月26日22:18:00 255.45 1.0444e+05年27日12月04日14:11:00“winter storm”“NorthEast”2003年12月17日15:11:00 NaN 66692年12月19日07:22:00“winter storm”“NorthEast”2005年1月28日18:20:00 401.39 89683 2005年1月29日02:36:00“winter storm”“NorthEast”04年2月04日00:53:00 32.061 46182 09- 2005年2月16日02:42:00“冬季风暴”“东北”2006年11月16日10:04:00 147.25 1.2571e+05 -2006年11月17日10:55:00“冬季风暴”“东北”03- 2007年2月02:19:00 293.83 1.1628e+05 04- 2007年2月21:24:00“冬季风暴”“东北”2008年2月18日05:24:00 353.29 64687 20- 2008年2月08:56:00“冬季风暴”

限制

  • 如果你使用parquetreadparquetDatastore若要读取文件,则结果可能与原始表的格式或内容不同。有关更多信息,请参见Apache Parquet数据类型映射

  • 不像parquetread,它将NULL值替换为double,parquetDatastore替换NULL整型值为0和NULL布尔值.这种替换会导致有损转换。

扩展功能

版本历史

在R2019a中引入

全部展开