主要内容

fileDatastore

带有自定义文件读取器的数据存储

描述

使用一个FileDatastore对象来管理集合不一定适合内存或大型自定义格式文件不适合内存时的大型自定义格式文件集合。您可以创建FileDatastore对象使用fileDatastore函数,指定其属性,然后使用对象函数导入和处理数据。

创建

描述

fds= fileDatastore (位置“ReadFcn”,@fcn通过指定的文件集合创建数据存储位置并使用这个函数fcn从文件中读取数据。

例子

fds= fileDatastore (位置“ReadFcn”,@fcn名称,值指定附加参数和属性fds使用一个或多个名称-值对参数。例如,可以根据文件的扩展名指定在数据存储中包含哪些文件fileDatastore(位置、“ReadFcn @customreader“FileExtensions”(“开头”、“.extx”))

输入参数

全部展开

数据存储中包含的文件或文件夹,指定为文件集对象,作为文件路径,或作为DsFileSet对象。

  • 文件集object—可以指定位置作为一个文件集对象。将位置指定为文件集对象导致数据存储的构造时间比指定路径或更快DsFileSet对象。有关更多信息,请参见matlab.io.datastore.FileSet

  • 文件路径——可以将单个文件路径指定为字符向量或字符串标量。可以将多个文件路径指定为字符向量单元格数组或字符串数组。

  • DsFileSetobject -你可以指定一个DsFileSet对象。有关更多信息,请参见matlab.io.datastore.DsFileSet

文件或文件夹可以是本地的或远程的:

  • 本地文件或文件夹—指定文件或文件夹的本地路径。如果文件不在当前文件夹中,则指定完整路径或相对路径。指定文件夹的子文件夹中的文件不会自动包含在数据存储中。指定本地路径时可以使用通配符(*)。此字符指定数据存储包含所有匹配的文件或匹配文件夹中的所有文件。

  • 远程文件或文件夹——指定远程文件或文件夹的完整路径,作为表单的统一资源定位符(URL)hdfs: / / /path_to_file.有关更多信息,请参见使用远程数据

当指定文件夹时,数据存储只包含支持的文件格式的文件,而忽略任何其他格式的文件。金宝app要指定要包含在数据存储中的文件扩展名的自定义列表,请参阅FileExtensions财产。

例子:“file1.ext”

例子:“. . / dir /数据/ file1.ext”

例子:{“C: \ dir \ data \ file1.exts”,“C: \ dir \ data \ file2.extx”}

例子:“C: \ dir \ data \ * . ext "

读取文件数据的函数,指定为函数句柄。

由函数句柄表示的函数的签名@fcn取决于指定的值ReadMode.读取文件数据的函数必须确认这些签名中的一个。

ReadMode

ReadFcn签名

“文件”(默认)

函数必须有这样的签名:

function data = MyReadFcn(filename)…结束

文件名—要读取的文件名。

数据—对应的文件数据。

“partialfile”

函数必须有这样的签名:

function [data,userdata,done] = MyReadFcn(filename,userdata)…结束

用户数据—设置和读取字段用户数据在多个之间持久化数据FileDatastore读调用。

完成——设置这个逻辑参数要么真正的

  • —继续读取当前文件。

  • 真正的—终止当前文件读取,并读取下一个文件。

数据-文件数据的一部分。

“字节”

函数必须有这样的签名:

function data = MyReadFcn(文件名,偏移量,大小)…结束

抵消—指定文件中从第一个字节开始的字节偏移量。

大小—指定当前读操作的读字节数。

数据—文件数据中指定大小的部分BlockSize

FileDatastore增加两个抵消大小中指定的值的输入BlockSize

中指定的值@fcn的值ReadFcn财产。

例子:@customreader

数据类型:function_handle

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:fds = fileDatastore(“C: \ dir \数据”,“FileExtensions”{“开头”、“.extx”})

子文件夹包含标志,指定为由逗号分隔的对组成“IncludeSubfolders”真正的, 0,或1。指定真正的将所有文件和子文件夹包含在每个文件夹或只包含每个文件夹中的文件。

如果没有指定“IncludeSubfolders”,则默认值为

例子:“IncludeSubfolders”,真的

数据类型:逻辑|

自定义格式文件扩展名,指定为逗号分隔对,由“FileExtensions”以及字符向量、字符向量的单元数组、字符串标量或字符串数组。

指定文件扩展名时,fileDatastore函数仅为具有指定扩展名的文件创建数据存储对象。您还可以通过指定来为没有任何扩展名的文件创建数据存储“FileExtensions”作为一个空字符向量,.如果没有指定“FileExtensions”,然后fileDatastore自动包括文件夹中的所有文件。

例子:“FileExtensions”、“

例子:“FileExtensions”、“开头”

例子:“FileExtensions”(“开头”、“.extx”)

数据类型:字符|细胞|字符串

函数预览输入数据,指定为函数句柄。

如果不指定预览功能,FileDatastore中指定的值@ReadFcn作为默认预览功能。或者,您可以为您的数据指定自己的自定义预览功能。

  • @ReadFcn(默认)——使用ReadFcn样本FileDatastore数据。此选项可能导致较慢的性能建设。

  • 函数处理-使用您的自定义预览功能FileDatastore构造以对输入数据进行抽样。使用PreviewFcn提供一个函数,该函数只读取输入数据的最低需要的部分,以便预览和高层结构。

指定的函数PreviewFcn必须返回与ReadFcn的回报。

数据类型:function_handle

要读取的文件的一部分,指定为“文件”“partialfile”,或“字节”

“文件”(默认)

使用读模式“文件”中指定的自定义函数ReadFcn,在一次读操作中读取整个文件。

根据您定制的read函数,文件数据存储在每次调用时读取完整的文件.并行化的单位是一个完整的文件。

“partialfile”

使用读模式“partialfile”中指定的自定义文件读取函数ReadFcn,每次读取操作只读取文件的一部分。

基于您定制的read函数,文件数据存储在每次调用时只读取文件的一部分函数。

“partialfile”读模式下,并行化的单位是一个完整的文件。多个串行操作是读取完整文件所必需的。

“字节”

使用读模式“字节”中指定的自定义函数ReadFcn,读BlockSize每次读取操作调整文件的大小。

FileDatastore将并行度单位设置为包含指定的字节数的文件块BlockSize

根据您定制的read函数,文件数据存储读取BlockSize每次调用read函数时调整文件的大小。多个并行操作是读取完整文件所必需的。

使用子集洗牌功能上的FileDatastore对象,则必须设置“ReadMode”“文件”

数据类型:字符|字符串

每次读取的字节数操作,指定为正整数。

确保您可以在多个并行MATLAB中分发文件的多个块®工人,指定BlockSize作为一个大于131072个字节(128千字节)。

指定或改变…的值BlockSize,必须先定ReadMode“字节”FileDatastore设置的默认值BlockSize根据中指定的值ReadMode

  • 如果ReadMode“文件”“partialfile”,然后FileDatastore设置默认BlockSize

  • 如果ReadMode“字节”,然后FileDatastore设置默认BlockSize128兆字节。

可选的文件系统根路径,指定为名称-值参数组成的“AlternateFileSystemRoots”字符串向量或单元格数组。使用“AlternateFileSystemRoots”当您在本地机器上创建数据存储,但需要访问和处理另一台机器(可能是不同的操作系统)上的数据时。此外,当使用Parallel Computing Toolbox™和MATLAB并行服务器™,并且数据存储在本地机器上,在不同的平台云或集群机器上可以使用数据的副本“AlternateFileSystemRoots”关联根路径。

  • 若要将一组相互等效的根路径关联起来,请指定“AlternateFileSystemRoots”作为一个字符串向量。例如,

    [" Z: \数据集”、“/ mynetwork /数据集”)

  • 若要关联与该数据存储相同的多组根路径,请指定“AlternateFileSystemRoots”作为包含多行的单元格数组,其中每一行表示一组等价的根路径。将单元格数组中的每一行指定为字符串向量或字符向量的单元格数组。例如:

    • 指定“AlternateFileSystemRoots”作为字符串向量的单元格数组。

      {[Z: \“数据集”、“/ mynetwork /数据集”);…[" Y: \数据集”、“/ mynetwork2 /数据集”、“年代:\数据集”)}

    • 另外,指定“AlternateFileSystemRoots”作为字符向量的单元数组的单元数组。

      {{“Z: \数据集”、“mynetwork /数据集”},…{“Y: \数据集”,“mynetwork2 /数据集”,年代:\数据集的}}

的价值“AlternateFileSystemRoots”必须满足以下条件:

  • 包含一个或多个行,其中每一行指定一组等价的根路径。

  • 每行指定多个根路径,且每个根路径至少包含两个字符。

  • 根路径是唯一的,并且不是彼此的子文件夹。

  • 包含至少一个指向文件位置的根路径条目。

有关更多信息,请参见设置数据存储,以便在不同的机器或集群上进行处理

例子:[" Z: \数据集”、“/ mynetwork /数据集”)

数据类型:字符串|细胞

属性

全部展开

FileDatastore属性描述与FileDatastore对象。除了文件属性时,可以指定的值FileDatastore使用名称-值对参数的属性。要在创建对象之后查看或修改属性,请使用点符号。

数据存储中包含的文件,解析为字符向量、字符向量的单元数组、字符串标量或字符串数组,其中每个字符向量或字符串都是文件的完整路径。的位置论点的fileDatastore数据存储函数定义文件创建数据存储时。

例子:{“C: \ dir \ data \ file1.ext”;“C: \ dir \ data \ file2.ext”}

例子:“hdfs: / / /数据/ * .mat”

数据类型:字符|细胞|字符串

此属性是只读的。

用于构造数据存储的文件夹,返回为字符向量的单元格数组。单元格数组被定向为列向量。每个字符向量都是指向包含数据文件的文件夹的路径。的位置论点的fileDatastore数据存储函数定义文件夹创建数据存储时。

文件夹属性在修改时将重置文件财产的FileDatastore对象。

数据类型:细胞

读取文件数据的函数,指定为函数句柄。

指定的值@fcn的值ReadFcn财产。

例子:@MyCustomFileReader

数据类型:function_handle

此属性是只读的。

垂直连接的标志,指定为逻辑真正的.属性时指定此属性的值FileDatastore对象。

真正的

多次读取FileDatastore对象返回垂直可连接的统一数据。

UniformRead属性值是真正的:

  • ReadFcn函数必须返回垂直连接的数据;否则,readall方法将返回错误。

  • 属性的输出的基础数据类型函数与输出的数据类型相同ReadFcn

(默认)

多次读取FileDatastore对象不返回垂直可连接的统一数据。

UniformRead属性值是:

  • readall返回单元格数组。

  • 返回一个高单元格数组。

例子:fds = fileDatastore(位置、“ReadFcn @load,“UniformRead”,真的)

数据类型:逻辑|

此属性是只读的。

支持写入的格式列表,作为字符串的金宝app行向量返回。此属性指定使用时可能的输出格式writeall从数据存储写入输出文件。

数据类型:字符串

对象的功能

hasdata 确定是否可以读取数据
numpartitions 数据存储分区数
分区 分区数据存储
预览 预览数据存储中的数据子集
读取数据存储中的数据
readall 读取数据存储中的所有数据
writeall 将数据存储写入文件
重置 将数据存储重置为初始状态
变换 变换数据存储
结合 合并来自多个数据存储的数据
isPartitionable 确定数据存储是否可分区
isShuffleable 确定数据存储是否可洗牌
洗牌 洗牌数据存储中的所有数据
子集 创建数据存储或文件集的子集

例子

全部折叠

使用FileSet对象或文件路径创建fileDatastore对象。

创建一个FileSet对象。创建一个fileDatastore对象。

fs = matlab.io.datastore.FileSet (“airlinesmall.parquet”);fds = fileDatastore (fs,“ReadFcn”@load)
fds =FileDatastore属性:文件:{'…matlab\toolbox\matlab\demos\ airlinsmall。拼花'}文件夹:{'…ReadFcn: @load AlternateFileSystemRoots: {} ReadFcn: @load AlternateFileSystemRoots: {} ReadFcn: 金宝app@load AlternateFileSystemRoots: {}

或者,您可以使用文件路径来创建fileDatastore对象。

fds = fileDatastore (“airlinesmall.parquet”“ReadFcn”, @load);

创建一个包含所有.mat文件在MATLAB®演示文件夹中,指定负载命令,读取文件数据。

fds = fileDatastore (fullfile (matlabroot“工具箱”“matlab”“演示”),“ReadFcn”@load,“FileExtensions”“.mat”
fds =FileDatastore属性:文件:{“…\ matlab \ matlab工具箱\ \ demo \ accidents.mat”;’……\ matlab \ matlab工具箱\ \ demo \ airfoil.mat”;“……\ matlab \ matlab工具箱\ \ demo \ airlineResults。垫”……和38个更多的}文件夹:{'…ReadFcn: @load AlternateFileSystemRoots: {} ReadFcn: @load AlternateFileSystemRoots: {} ReadFcn: 金宝app@load AlternateFileSystemRoots: {}

读取数据存储中的第一个文件,然后读取第二个文件。

data1 =阅读(fds);data2 =阅读(fds);

同时读取数据存储中的所有文件。

readall (fds);

初始化单元格数组以保存数据和计数器

datarray = cell(numel(fds.Files), 1);i = 1;

将数据存储重置为第一个文件,并一次读取一个文件,直到没有数据剩下。将数据分配给数组dataarray

重置(fds);Hasdata (fds) dataarray{i} = read(fds);我=我+ 1;结束

您可以创建一个数据存储来从不一定适合内存的大mat文件中读取数据。假设大的MAT-file中的每个数组都适合于可用内存,创建一个数据存储来读取和处理数据,分三个步骤:

  1. 编写一个自定义读取函数,每次从mat文件中读取一个数组。

  2. 设置数据存储函数的参数以执行部分读取。

  3. 每次从mat文件中读取一个数组。

编写一个自定义函数,每次从mat文件中读取一个数组。函数必须具有@ReadFcn的观点FileDatastore.将此文件保存在您的工作文件夹或在MATLAB路径上的文件夹中。对于本例,是一个自定义函数load_variable包含在这里。

类型load_variable.m
function [data,variables,done] = load_variable(filename,variables) %如果变量列表是空的,%从文件中创建变量列表如果是空的(variables)变量= who('-file', filename);end %从变量列表中加载一个变量data = Load (filename, variables{1});%从列表变量中移除新读取的变量(1)= [];%如果该文件已读取,则转到下一个文件。做= isempty(变量);结束

创建和设置FileDatastore包含accidents.mat.指定要使用的数据存储参数“partialfile”为读取模式和load_variable作为自定义读取功能。

fds = fileDatastore (“accidents.mat”“ReadMode”“partialfile”“ReadFcn”, @load_variable);

使用数据存储从文件中读取前三个变量。该文件accidents.mat包含9个变量和每个调用返回一个变量。因此,要获得前三个变量,需要调用read函数三次。

data =阅读(fds)
data =结构体字段:数据源:{3 x1细胞}
data =阅读(fds)
data =结构体字段:hwycols: 17
data =阅读(fds)
data =结构体字段:hwydata (51 x17双):

请注意示例文件accidents.mat是小的,适合内存,但您可以期待类似的结果,大的mat文件不适合内存。

提示

  • 使用子集洗牌功能上的FileDatastore对象,则必须设置“ReadMode”“文件”

介绍了R2016a