主要内容

数据存储

为大量数据创建数据存储

描述

ds=数据存储(地方从指定的数据集合创建数据存储地方. 数据存储是存储空间太大而无法放入内存的数据集合的存储库。创建之后ds,你可以读取和处理数据。

例子

ds=数据存储(地方名称,值指定以下的附加参数ds使用一个或多个名称-值对参数。例如,您可以通过指定为映像文件创建数据存储“类型”,“图像”

例子

全部折叠

创建与示例文件关联的数据存储airlinesmall.csv.这个文件包含了从1987年到2008年的航空公司数据。

要管理数字列中缺失数据的导入,请使用“TreatAsMissing”“MissingValue”名称-值参数。替换的每个实例“NA”在导入的数据中指定值为0“TreatAsMissing”作为“NA”以及“MissingValue”为0。

ds =数据存储(“airlinesmall.csv”“TreatAsMissing”“NA”...“MissingValue”,0)
ds=tablertextdatastore和属性:文件:{'../devel/bat/Bdoc21b/build/matlab/toolbox/matlab/demos/airlinesmall.csv'}文件夹:{'/mathworks/devel/bat/Bdoc21b/build/matlab/toolbox/matlab/demos'}文件编码:'UTF-8'备选系统根:{}变量名称:'modify'ReadVariableNames:true变量名称:{'Year'、'Month'、'DayofMonth'…和26 more}DatetimeLocale:en_US文本格式属性:numheaderline:0分隔符:','RowDelimiter:'\r\n'TreatAsMissing:'NA'MissingValue:0高级文本格式属性:TextscanFormats:{'%f','%f','%f'…和26 more}TextType:'char'ExponentCharacters:'eEdD'CommentStyle:'Whitespace:'\b\t'multipledLimiterSong:控制预览、读取、readall返回的表的错误属性:SelectedVariableNames:{'Year'、'Month'、'DayofMonth'…和26 more}SelectedFormats:{'%f'、'%f'、'%f'…和26 more}ReadSize:20000行输出类型:'table'行时间:[]写入特定属性:支持的输出格式:[“txt”“csv”“xlsx”“xls”“parquet”“parq”]默认输出格式:“txt”金宝app

数据存储创建一个TabularTextDatastore

创建一个包含all的数据存储.tifMATLAB®路径及其子文件夹中的文件。

ds =数据存储(fullfile (matlabroot,“工具箱”“matlab”),...“IncludeSubfolders”,真的,“FileExtensions”“.tif”“类型”“图像”
ds =具有以下属性的ImageDatastore:文件:{'H:\21\nhossain.Bdoc21b.Mar25\matlab\toolbox\matlab\demos\example.tif';'H:\21\nhossain.Bdoc21b.Mar25\matlab\toolbox\matlab\imagesci\corn.tif'}文件夹:{'H:\21\nhossain.Bdoc21b.Mar25\matlab\toolbox\matlab\matlab\matlab'}可选无约束系统根:{}ReadSize:1标签:{}支持输出格式:[“png”“jpg”“tif”]Defa金宝appultOutputFormat:“png”ReadFcn:@readDatastoreImage

输入参数

全部折叠

数据存储中包含的文件或文件夹,指定为文件集对象,作为文件路径,或作为DsFileSet对象。

  • 文件集对象-您可以指定地方作为一个文件集对象。将位置指定为文件集对象导致数据存储的构造时间比指定路径或更快DsFileSet对象。有关详细信息,请参阅matlab.io.datastore.FileSet

  • 文件路径-可以将单个文件路径指定为字符向量或字符串标量。可以将多个文件路径指定为字符向量的单元格数组或字符串数组。

  • DsFileSetobject -你可以指定一个DsFileSet对象。有关详细信息,请参阅matlab.io.datastore.DsFileSet

文件或文件夹可以是本地的,也可以是远程的:

  • 本地文件或文件夹—指定文件或文件夹的本地路径。如果文件不在当前文件夹中,则指定完整路径或相对路径。指定文件夹的子文件夹中的文件不会自动包含在数据存储中。指定本地路径时可以使用通配符(*)。此字符指定数据存储包含所有匹配的文件或匹配文件夹中的所有文件。

  • 远程文件或文件夹——指定远程文件或文件夹的完整路径,作为表单的统一资源定位符(URL)hdfs: / / /到文件的路径.有关更多信息,请参见使用远程数据

当指定文件夹时,数据存储只包含支持的文件格式的文件,而忽略任何其他格式的文件。金宝app要指定要包含在数据存储中的文件扩展名的自定义列表,请参阅FileExtensions财产。

KeyValueDatastore,文件必须是由地图还原函数。mat文件必须在本地文件系统或网络文件系统中。序列文件可以在本地、网络或HDFS™文件系统中。为DatabaseDatastore,位置参数不必是文件。有关详细信息,请参阅DatabaseDatastore(数据库工具箱)

例子:“file1.csv”

例子:“../dir/data/file1.jpg”

例子:{“C: \ dir \ data \ file1.xls”,“C: \ dir \ data \ file2.xlsx”}

例子:'C:\dir\data\*.mat'

例子:'hdfs:///data/file1.txt'

名称-值参数

指定可选的逗号分隔的对名称,值论据。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:FileExtensions,{“jpg”、“.tif”}包含所有的扩展jpg.tif扩展为一个ImageDatastore对象。

数据存储的类型,指定为逗号分隔对,由“类型”以及以下其中之一:

的价值“类型” 描述
“tabulartext” 包含表格数据的文本文件。数据编码必须为ASCII或UTF-8。
“图像” JPEG或PNG等格式的图像文件。可接受的文件包括imformats格式。
“表格” 包含一个或多个表的电子表格文件。
“keyvalue” MAT文件或序列文件中包含的键值对数据以及地图还原
“文件” 自定义格式文件,需要指定的读取函数来读取数据。有关更多信息,请参见FileDatastore
“高” 生成的mat文件或Sequence文件的函数数据类型。有关更多信息,请参见:TallDatastore
“铺” 包含面向列的数据的Parquet文件。有关更多信息,请参见:ParquetDatastore
“数据库” 存储在数据库中的数据。需要数据库工具箱™。属性时需要指定额外的输入参数类型参数。有关更多信息,请参见DatabaseDatastore(数据库工具箱)
  • 如果有多种支持文件格式的类型,则使用金宝app“类型”参数指定数据存储类型。

  • 如果未为指定值“类型”,然后数据存储根据文件的扩展名自动确定要创建的适当数据存储类型。

数据类型:烧焦|一串

包含文件夹中的子文件夹,由逗号分隔的对组成“IncludeSubfolders”真正的(1) 或(0)指定真正的将所有文件和子文件夹包含在每个文件夹或只包含每个文件夹中的文件。

当你没有指定“IncludeSubfolders”,则默认值为

“IncludeSubfolders”名称-值对仅在创建以下对象时有效:

  • TabularTextDatastore

  • ImageDatastore

  • SpreadsheetDatastore

  • FileDatastore

  • KeyValueDatastore

  • ParquetDatastore

例子:“IncludeSubfolders”,真的

数据类型:逻辑|双重的

文件的扩展名,指定为逗号分隔对,由“FileExtensions”以及字符向量、字符向量的单元数组、字符串标量或字符串数组。当指定“FileExtensions”还,指定“类型”.您可以使用空引号''表示没有扩展名的文件。

如果“FileExtensions”没有指定,那么数据存储根据数据存储类型,自动包括所有支持的文件扩展名。金宝app如果您想包含不受支持的扩展,请分别指定要包含的每个金宝app扩展。

  • TabularTextDatastore对象,支持的扩展包金宝app括.txt.csv.dat.dlm.asc。text,没有分机。

  • ImageDatastore对象,支持的扩展包金宝app括所有imformats扩展。

  • SpreadsheetDatastore对象,支持的扩展包金宝app括xls.xlsx.xlsm.xltx,.xltm

  • TallDatastore对象,支持的扩展包金宝app括.mat.seq

  • ParquetDatastore对象,支持的扩展包金宝app括.parquet帕尔克先生

“FileExtensions”名称-值对仅在创建以下对象时有效:

  • TabularTextDatastore

  • ImageDatastore

  • SpreadsheetDatastore

  • FileDatastore

  • KeyValueDatastore

  • ParquetDatastore

例子:“文件扩展名”,“.jpg”

例子:'文件扩展名',{.txt','.text'}

数据类型:烧焦|细胞|一串

备用文件系统根路径,指定为名称值参数,包括“AlternateFileSystemRoots”字符串向量或单元格数组。使用“AlternateFileSystemRoots”当您在本地机器上创建数据存储,但需要访问和处理另一台机器(可能是不同的操作系统)上的数据时。此外,当使用Parallel Computing Toolbox™和MATLAB®并行服务器™,并且数据存储在本地机器上,在不同的平台云或集群机器上可以使用数据的副本“AlternateFileSystemRoots”关联根路径。

  • 若要将一组相互等效的根路径关联起来,请指定“AlternateFileSystemRoots”作为一个字符串向量。例如,

    [" Z: \数据集”、“/ mynetwork /数据集”)

  • 若要关联与该数据存储相同的多组根路径,请指定“AlternateFileSystemRoots”作为包含多行的单元格数组,其中每行表示一组等效根路径。请将单元格数组中的每行指定为字符串向量或字符向量的单元格数组。例如:

    • 具体说明“AlternateFileSystemRoots”作为字符串向量的单元格数组。

      {[Z: \“数据集”、“/ mynetwork /数据集”);…[" Y: \数据集”、“/ mynetwork2 /数据集”、“年代:\数据集”)}

    • 另外,指定“AlternateFileSystemRoots”作为字符向量的单元数组的单元数组。

      {{'Z:\datasets','/mynetwork/datasets'};..{'Y:\datasets','/mynetwork2/datasets','S:\datasets'}

的价值“AlternateFileSystemRoots”必须满足以下条件:

  • 包含一个或多个行,其中每一行指定一组等价的根路径。

  • 每行指定多个根路径,每个根路径必须至少包含两个字符。

  • 根路径是唯一的,并且不是彼此的子文件夹。

  • 包含至少一个指向文件位置的根路径条目。

有关更多信息,请参见设置数据存储,以便在不同的机器或集群上进行处理

例子:[" Z: \数据集”、“/ mynetwork /数据集”)

数据类型:一串|细胞

文本变量的输出数据类型,指定为逗号分隔对,由“TextType”或者“字符”“字符串”. 如果从readall,或预览函数包含文本变量“TextType”为指定这些变量的数据类型TabularTextDatastoreSpreadsheetDatastore只有对象。如果“TextType”“字符”,则输出为字符向量的单元格数组。如果“TextType”“字符串”,则输出具有类型一串

数据类型:烧焦|一串

类型用于导入的日期和时间数据,指定为由“DatetimeType”其中一个价值观是:“datetime”“文本”.的“DatetimeType”参数仅在创建TabularTextDatastore对象。

价值 输入导入日期和时间数据
“datetime”

MATLABdatetime数据类型

有关更多信息,请参见datetime

“文本”

如果“DatetimeType”被指定为“文本”,则导入的日期和时间数据的类型取决于“TextType”参数:

  • 如果“TextType”“字符”,那么数据存储以字符向量的单元格数组形式返回日期。

  • 如果“TextType”“字符串”,那么数据存储以字符串数组形式返回日期。

例子:“DatetimeType”、“日期时间的

数据类型:烧焦|一串

文本文件中持续时间数据的输出数据类型,指定为逗号分隔对,由“DurationType”或者“持续时间”“文本”

价值 导入持续时间数据的类型
“持续时间”

MATLAB持续时间数据类型

有关更多信息,请参见持续时间

“文本”

如果“DurationType”被指定为“文本”,则导入的持续时间数据的类型取决于“TextType”参数:

  • 如果“TextType”“字符”,则导入函数将持续时间数据作为字符向量的单元格数组返回。

  • 如果“TextType”“字符串”,则导入函数将持续时间数据作为字符串数组返回。

数据类型:烧焦|一串|datetime

标志以保留变量名,指定为“修改”“保存”

  • “修改”-转换无效的变量名(由isvarname函数)转换为有效的MATLAB标识符。

  • “保存”-保留不是有效的MATLAB标识符的变量名,例如包含空格和非ascii字符的变量名。

从R2019b开始,变量名和行名可以包含任何字符,包括空格和非ascii字符。此外,它们可以以任何字符开头,而不仅仅是字母。变量和行名不一定是有效的MATLAB标识符(由isvarname功能)。要保留这些变量名和行名,可以设置VariableNamingRule“保存”.的值时,不刷新变量名VariableNamingRule改变从“修改”“保存”

数据类型:烧焦|一串

除了这些名称-值对之外,还可以将下列对象的任何属性指定为名称-值对,但文件属性:

输出参数

全部折叠

一个数据集合的数据存储,返回为以下对象之一:TabularTextDatastoreImageDatastoreSpreadsheetDatastoreKeyValueDatastoreFileDatastoreTallDatastoreParquetDatastore,或DatabaseDatastore.数据存储的类型取决于文件的类型或地方论点。更多信息,请单击下表中的数据存储名称:

类型 输出
文本文件 TabularTextDatastore
图像文件 ImageDatastore
电子表格文件 SpreadsheetDatastore
生成的mat文件或Sequence文件地图还原 KeyValueDatastore
自定义格式文件 FileDatastore
生成的mat文件或Sequence文件的函数数据类型。 TallDatastore
镶花的文件 ParquetDatastore
数据库 DatabaseDatastore(数据库工具箱)

对于每一种数据存储类型文件属性是字符向量的单元格数组。属性解析的文件的绝对路径地方论点。

介绍了R2014b