主要内容

fileDatastore

带有自定义文件阅读器的数据存储

描述

使用一个FileDatastore对象来管理大型自定义格式文件集合,这些集合不一定适合内存,或者当大型自定义格式文件不适合内存时。您可以创建FileDatastore对象使用fileDatastore函数,指定其属性,然后使用对象函数导入和处理数据。

创建

描述

fds= fileDatastore (位置“ReadFcn”,@fcn从指定的文件集合创建数据存储位置并使用函数fcn从文件中读取数据。

例子

fds= fileDatastore (位置“ReadFcn”,@fcn名称,值指定附加参数和属性fds使用一个或多个名称-值对参数。例如,您可以根据文件的扩展名指定在数据存储中包含哪些文件fileDatastore(位置、“ReadFcn”@customreader FileExtensions,{“开头”、“.extx”})

输入参数

全部展开

包含在数据存储中的文件或文件夹,指定为路径或DsFileSet对象。

  • path -指定路径为字符向量、字符向量的单元格数组、字符串标量或字符串数组,包含本地或远程文件或文件夹的位置。

    • 本地文件或文件夹-指定位置作为文件或文件夹的本地路径。如果文件不在当前文件夹中,则本地路径必须指定完整路径或相对路径。指定文件夹的子文件夹中的文件不会自动包含在数据存储中。当指定本地路径时,可以使用通配符*。此字符指定数据存储包括所有匹配文件或匹配文件夹中的所有文件。

    • 远程文件或文件夹-指定位置将文件或文件夹的完整路径作为统一资源定位符(URL)的形式hdfs: / / / path_to_file.有关更多信息,请参见使用远程数据

  • DsFileSetobject -你也可以指定位置作为一个DsFileSet对象。有关更多信息,请参见matlab.io.datastore.DsFileSet

位置表示一个文件夹,数据存储只包括支持的文件格式,而忽略任何其他格式。金宝app若要指定要包含在数据存储中的自定义文件扩展名列表,请参见FileExtensions财产。

例子:“file1.ext”

例子:“. . / dir /数据/ file1.ext”

例子:{“C: \ dir \ data \ file1.exts”,“C: \ dir \ data \ file2.extx”}

例子:“C: \ dir \ data \ * . ext的

读取文件数据的函数,指定为函数句柄。

由函数句柄表示的函数的签名@fcn的值ReadMode.读取文件数据的函数必须确认这些签名中的一个。

ReadMode

ReadFcn签名

“文件”(默认)

函数必须有这样的签名:

函数data = MyReadFcn(文件名)…结束

文件名—要读取的文件名称。

数据—对应的文件数据。

“partialfile”

函数必须有这样的签名:

function [data,userdata,done] = MyReadFcn(filename,userdata)…结束

用户数据的字段设置和读取用户数据在多个数据之间持久化数据FileDatastore读调用。

完成-设置这个逻辑任意一个的参数真正的

  • —继续读取当前文件。

  • 真正的—终止当前文件读取,并读取下一个文件。

数据—文件数据的一部分。

“字节”

函数必须有这样的签名:

函数data = MyReadFcn(文件名,偏移量,大小)…结束

抵消—从文件的第一个字节开始偏移。

大小—指定当前读操作读出的字节数。

数据中指定大小的文件数据的一部分BlockSize

FileDatastore同时增加抵消大小中指定的值的输入BlockSize

中指定的值@fcn的值ReadFcn财产。

例子:@customreader

数据类型:function_handle

名称-值对参数

的可选逗号分隔对名称,值参数。名字参数名称和价值对应的值。名字必须出现在引号内。您可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:fds = fileDatastore(“C: \ dir \数据”,“FileExtensions”{“开头”、“.extx”})

子文件夹包含标志,指定为逗号分隔的对,由“IncludeSubfolders”真正的、0或1。指定真正的在每个文件夹或中包含所有文件和子文件夹只包括每个文件夹中的文件。

如果您没有指定“IncludeSubfolders”,则默认值为

例子:“IncludeSubfolders”,真的

数据类型:逻辑|

自定义格式文件扩展名,指定为由逗号分隔的对组成“FileExtensions”字符向量,字符向量的单元格数组,字符串标量,或者字符串数组。

指定文件扩展名时,fileDatastore函数仅为具有指定扩展名的文件创建数据存储对象。您还可以通过指定为没有任何扩展名的文件创建数据存储“FileExtensions”作为一个空的字符向量,''.如果您没有指定“FileExtensions”,然后fileDatastore自动包含文件夹中的所有文件。

例子:‘FileExtensions’。”

例子:“FileExtensions”、“开头”

例子:FileExtensions,{“开头”,“.extx”}

数据类型:字符|细胞|字符串

函数预览作为函数句柄指定的输入数据。

如果没有指定预览函数,FileDatastore中指定的值@ReadFcn作为默认的预览功能。或者,您可以为数据指定自己的自定义预览函数。

  • @ReadFcn(默认)-使用ReadFcn样本FileDatastore数据。此选项可能导致性能变慢建设。

  • 函数处理-使用您的自定义预览功能FileDatastore构造对输入数据进行采样。使用PreviewFcn提供一个函数,只读取预览和高构造所需的输入数据的最小部分。

指定的函数。PreviewFcn返回的值必须与ReadFcn的回报。

数据类型:function_handle

要读取的文件的一部分,指定为“文件”“partialfile”,或“字节”

“文件”(默认)

使用读模式“文件”当您自定义函数时,指定在ReadFcn,在一次读操作中读取整个文件。

根据您的自定义读取函数,文件数据存储在每次调用时读取完整的文件.并行化的单位是一个完整的文件。

“partialfile”

使用读模式“partialfile”当您自定义文件读取功能时,指定在ReadFcn,每次读取操作只读取文件的一部分。

方法时,文件数据存储只读取文件的一部分,这取决于您的自定义读取函数函数。

“partialfile”读取模式下,单位的并行化是一个完整的文件。多个串行操作是读取完整文件所必需的。

“字节”

使用读模式“字节”当您自定义函数时,指定在ReadFcn,读到BlockSize每次读取操作的文件大小的一部分。

FileDatastore将并行化单位设置为包含指定字节数的文件块BlockSize

根据您的自定义读取函数,读取文件数据存储BlockSize每次调用read函数时对文件的大小进行调整。多个并行操作对于读取一个完整的文件是必要的。

使用子集洗牌函数在FileDatastore对象,必须设置“ReadMode”“文件”

数据类型:字符|字符串

每次读取的字节数操作,指定为正整数。

确保您可以在多个并行MATLAB中分布文件的多个块®工人,指定BlockSize作为大于的正整数131072个字节(128千字节)。

指定或改变…的值BlockSize,你必须先设置ReadMode“字节”FileDatastore的默认值BlockSize中指定的值ReadMode

  • 如果ReadMode“文件”“partialfile”,然后FileDatastore设置默认值BlockSize

  • 如果ReadMode“字节”,然后FileDatastore设置默认值BlockSize128兆字节。

可选文件系统根路径,指定为逗号分隔的对,由“AlternateFileSystemRoots”一个字符串向量或者单元格数组。使用“AlternateFileSystemRoots”在本地机器上创建数据存储,但需要在另一台机器(可能是不同的操作系统)上访问和处理数据。此外,在使用并行计算工具箱™和MATLAB并行服务器,并且数据存储在您的本地机器上,不同平台云或集群机器上可用的数据副本,您必须使用“AlternateFileSystemRoots”关联根路径。

  • 若要关联一组等价的根路径,请指定“AlternateFileSystemRoots”作为一个字符串向量。例如,

    [" Z: \数据集”、“/ mynetwork /数据集”)

  • 若要关联多个与数据存储等效的根路径集,请指定“AlternateFileSystemRoots”作为包含多行的单元格数组,其中每行表示一组等效根路径。将单元格数组中的每一行指定为字符串向量或字符向量的单元格数组。例如:

    • 指定“AlternateFileSystemRoots”作为字符串向量的单元格数组。

      {[Z: \“数据集”、“/ mynetwork /数据集”);…[" Y: \数据集”、“/ mynetwork2 /数据集”、“年代:\数据集”)}

    • 另外,指定“AlternateFileSystemRoots”作为字符向量的单元格数组的单元格数组。

      {{“Z: \数据集”、“mynetwork /数据集”},…{“Y: \数据集”,“mynetwork2 /数据集”,年代:\数据集的}}

的价值“AlternateFileSystemRoots”必须满足这些条件:

  • 包含一行或多行,其中每行指定一组等效的根路径。

  • 每行指定多个根路径,每个根路径至少包含两个字符。

  • 根路径是唯一的,并且不是彼此的子文件夹。

  • 包含至少一个指向文件位置的根路径条目。

有关更多信息,请参见为不同机器或集群上的处理设置数据存储

例子:[" Z: \数据集”、“/ mynetwork /数据集”)

数据类型:字符串|细胞

属性

全部展开

FileDatastore属性描述与FileDatastore对象。除了文件属性的值时,可以指定FileDatastore使用名称-值对参数的属性。要在创建对象后查看或修改属性,请使用点表示法。

包含在数据存储中的文件,解析为字符向量、字符向量的单元格数组、字符串标量或字符串数组,其中每个字符向量或字符串都是文件的完整路径。的位置参数中的参数fileDatastore数据存储函数定义文件创建数据存储时。

例子:{“C: \ dir \ data \ file1.ext”;“C: \ dir \ data \ file2.ext”}

例子:hdfs: / / /数据/ * .mat”

数据类型:字符|细胞|字符串

此属性是只读的。

用于构造数据存储的文件夹,作为字符向量的单元格数组返回。单元格数组以列向量为方向。每个字符向量都是指向包含数据文件的文件夹的路径。的位置参数中的参数fileDatastore数据存储函数定义文件夹创建数据存储时。

文件夹属性时,将重置文件的属性FileDatastore对象。

数据类型:细胞

读取文件数据的函数,指定为函数句柄。

指定的值。@fcn的值ReadFcn财产。

例子:@MyCustomFileReader

数据类型:function_handle

此属性是只读的。

垂直可连接的标志,指定为逻辑真正的.属性时指定此属性的值FileDatastore对象。

真正的

的多次读取FileDatastore对象返回垂直可连接的统一数据。

UniformRead属性值为真正的

  • ReadFcn函数必须返回垂直可连接的数据;否则,readall方法返回错误。

  • 类的输出的基础数据类型函数的输出数据类型与ReadFcn

(默认)

的多次读取FileDatastore对象不返回垂直可连接的统一数据。

UniformRead属性值为

  • readall返回一个单元格数组。

  • 返回一个高单元格数组。

例子:fds = fileDatastore(location,'ReadFcn',@load,'UniformRead',true)

数据类型:逻辑|

此属性是只读的。

支持写入的格式列表,作为字符串的金宝app行向量返回。此属性指定使用时可能的输出格式writeall从数据存储写入输出文件。

数据类型:字符串

对象的功能

hasdata 确定是否有数据可以读取
numpartitions 数据存储分区数
分区 对数据存储进行分区
预览 预览数据存储中的数据子集
读取数据存储中的数据
readall 读取数据存储中的所有数据
writeall 将数据存储写入文件
重置 将数据存储重置为初始状态
变换 变换数据存储
结合 组合来自多个数据存储的数据
isPartitionable 确定数据存储是否可分区
isShuffleable 确定数据存储是否可洗牌
洗牌 打乱数据存储中的所有数据
子集 创建数据存储或文件集的子集

例子

全部折叠

在MATLAB®中为文件创建一个数据存储演示文件夹中包含.mat扩展。

fds = fileDatastore(fullfile(matlabroot,“工具箱”matlab的“演示”),“ReadFcn”@load,“FileExtensions”“.mat”

创建一个包含所有.matMATLAB®中的文件演示文件夹,指定负载函数读取文件数据。

fds = fileDatastore(fullfile(matlabroot,“工具箱”matlab的“演示”),“ReadFcn”@load,“FileExtensions”“.mat”

读取数据存储中的第一个文件,然后读取第二个文件。

Data1 = read(fds);Data2 = read(fds);

同时读取数据存储中的所有文件。

readall (fds);

初始化一个单元格数组以保存数据和计数器

dataarray = cell(数字(fds.Files), 1);I = 1;

将数据存储重置到第一个文件,并一次读取一个文件,直到没有剩余数据。将数据分配给数组dataarray

重置(fds);Hasdata (fds) dataarray{i} = read(fds);I = I +1;结束

您可以创建一个数据存储来从不一定适合内存的大型mat文件中读取数据。假设大型mat文件中的每个数组都适合可用内存,创建一个数据存储来读取和处理数据,分为三个步骤:

  1. 编写一个自定义读取函数,每次从mat文件中读取一个数组。

  2. 设置数据存储函数的参数以执行部分读取。

  3. 每次从mat文件中读取一个数组。

编写一个自定义函数,每次从mat文件中读取一个数组。方法中描述的函数必须具有签名@ReadFcn的观点FileDatastore.将此文件保存在工作文件夹或MATLAB路径下的文件夹中。对于本例,是一个自定义函数load_variable包含在这里。

类型load_variable.m
function [data,variables,done] = load_variable(filename,variables) %如果变量列表为空,%从文件中创建变量列表If isempty(variables)变量= who('-file', filename);从变量列表中加载变量data = Load(文件名,变量{1});从变量列表中删除新读取的变量(1)= [];如果该文件已读取,则转移到下一个文件。Done = isempty(变量);结束

创建并设置FileDatastore包含accidents.mat.指定要使用的数据存储参数“partialfile”作为读模式和load_variable作为自定义读取功能。

fds = fileDatastore(“accidents.mat”“ReadMode”“partialfile”“ReadFcn”, @load_variable);

使用数据存储从文件中读取前三个变量。该文件accidents.mat包含9个变量和对返回一个变量。因此,要获得前三个变量,需要调用read函数三次。

Data = read(fds)
data =带字段的结构:数据来源:{3x1 cell}
Data = read(fds)
data =带字段的结构:hwycols: 17
Data = read(fds)
data =带字段的结构:Hwydata: [51x17 double]

请注意示例文件accidents.mat是较小且适合内存的,但是对于不适合内存的大型mat文件,您可以预期类似的结果。

提示

  • 使用子集洗牌函数在FileDatastore对象,必须设置“ReadMode”“文件”

在R2016a中引入