为大型数据集合创建数据存储
创建一个与示例文件相关联的数据存储Airlinesmall.csv.
.该文件包含1987年至2008年的航空公司数据。
若要管理数字列中缺失数据的导入,请使用“TreatAsMissing”
和“MissingValue”
名称值对参数。替换每个实例'na'
在导入数据中指定值为0“TreatAsMissing”
作为'na'
和价值“MissingValue”
为0。
ds =数据存储('airlinesmall.csv',“TreatAsMissing”,'na',...“MissingValue”,0)
ds = TabularTextDatastore属性:文件 : { ' .../ 猛击/棒/ Bdoc21a /构建/ matlab工具箱/ matlab /演示/ airlinesmall.csv’}文件夹:{' / mathworks /猛击/棒/ Bdoc21a /构建/ matlab工具箱/ matlab /演示'}FileEncoding:“utf - 8”AlternateFileSystemRoots: {} VariableNamingRule:“修改”ReadVariableNames:真VariableNames:{'Year', 'Month', 'DayofMonth'…DatetimeLocale: en_US Text Format Properties: NumHeaderLines: 0 Delimiter: ',' RowDelimiter: '\r\n' TreatAsMissing: 'NA' MissingValue: 0高级文本格式属性:TextscanFormats: {'%f', '%f', '%f'…MultipleDelimitersAsOne: false属性,控制由preview, read, readall返回的表:SelectedVariableNames: {'Year', 'Month', 'DayofMonth'…和26}SelectedFormats: {% f ', ' % f ', ' % f '……and 26 more} ReadSize: 20000 rows OutputType: 'table' RowTimes: [] Write-specific Properties: 金宝appSupportedOutputFormats: ["txt" "csv" "xlsx" "xls" "parquet" "parq"] DefaultOutputFormat: "txt"
数据存储
创造一个tabulartextdatastore.
.
创建包含所有的数据存储.tif
MATLAB®路径及其子文件夹中的文件。
ds =数据存储(fullfile (matlabroot,“工具箱”,'matlab'),...“IncludeSubfolders”, 真的,'fileextensions',“.tif”,'类型',“图像”)
文件:{'…\matlab\工具箱\matlab\演示\example.tif';`…\matlab\工具箱\matlab\imagesci\corn.tif'} ReadSize: 1 label: {} ReadFcn: @readDatastoreImage . txt
地点
- - - - - -在数据存储区中包含的文件或文件夹DsFileSet
对象数据存储中包含的文件或文件夹,指定为路径或aDsFileSet
对象。
路径 - 将路径指定为字符向量,字符向量,字符串标量或字符串数组的单元格数组,其中包含本地或远程的文件或文件夹的位置。
本地文件或文件夹 - 指定地点
作为文件或文件夹的本地路径。如果文件不在当前文件夹中,则本地路径必须指定完整或相对路径。指定文件夹的子文件夹中的文件不会自动包含在数据存储区中。指定本地路径时,可以使用通配符(*)。此字符指定数据存储区包括匹配文件夹中的所有匹配文件或所有文件。
远程文件或文件夹 - 指定地点
作为表单的统一资源定位符(URL)的文件或文件夹的完整路径HDFS:/// path_to_file
.有关更多信息,请参见使用远程数据.
DsFileSet
对象 - 您也可以指定地点
作为一个DsFileSet
对象。有关更多信息,请参见matlab.io.datastore.DsFileSet
.
什么时候地点
表示一个文件夹时,数据存储只包含支持的文件格式,而忽略任何其他格式。金宝app若要指定要包含在数据存储中的自定义文件扩展名列表,请参见FileExtensions
财产。
为KeyValueDatastore
,文件必须是mat文件或序列文件Mapreduce.
功能。MAT文件必须在本地文件系统中或网络文件系统中。序列文件可以在本地,网络或HDFS™文件系统中。为DatabaseDatastore
,位置参数不需要是文件。有关更多信息,请参见DatabaseDatastore
(数据库工具箱).
例子:“file1.csv”
例子:'../dir/data/file1.jpg'
例子:{“C: \ dir \ data \ file1.xls”,“C: \ dir \ data \ file2.xlsx”}
例子:'c:\ dir \ data \ *。垫子'
例子:'hdfs:///data/file1.txt'
指定可选的逗号分隔对名称,值
论点。的名字
参数名和价值
是对应的值。的名字
必须出现在引号内。您可以按如下顺序指定几个名称和值对参数name1,value1,...,namen,valuen
.
FileExtensions,{“jpg”、“.tif”}
控件包含所有扩展jpg
或.tif
扩展为一个ImageDatastore
对象。
'类型'
- - - - - -数据存储类型“tabulartext”
|“图像”
|“表格”
|“keyvalue”
|“文件”
|“高”
|……数据存储的类型,指定为逗号分隔的对,由'类型'
其中之一是:
的价值'类型' |
描述 |
---|---|
“tabulartext” |
包含表格数据的文本文件。数据编码必须为ASCII或UTF-8。 |
“图像” |
图像文件以JPEG或PNG等格式。可接受的文件包括imformats. 格式。 |
“表格” |
包含一个或多个工作表的电子表格文件。 |
“keyvalue” |
密钥值对数据包含在MAT文件或序列文件中,其中包含数据生成的数据Mapreduce. . |
“文件” |
自定义格式文件,需要指定的读取功能读取数据。有关更多信息,请参见FileDatastore . |
“高” |
生成的mat文件或序列文件写 的函数高 数据类型。有关更多信息,请参见,TallDatastore . |
“铺” |
包含面向列数据的拼花文件。有关更多信息,请参见,ParquetDatastore . |
“数据库” |
存储在数据库中的数据。需要数据库工具箱™。属性时需要指定额外的输入参数类型 参数。有关更多信息,请参见DatabaseDatastore (数据库工具箱). |
如果有多种类型支持文件的格式,则使用金宝app'类型'
参数指定数据存储类型。
如果您未指定值'类型'
,然后数据存储
根据文件的扩展名自动确定要创建的数据存储的适当类型。
数据类型:char
|细绳
“IncludeSubfolders”
- - - - - -在文件夹中包含子文件夹真正的
或假
|0或1包括文件夹中的子文件夹,指定为逗号分隔对组成“IncludeSubfolders”
和真正的
(1)或假
(0)指定真正的
在每个文件夹中包含所有文件和子文件夹或假
只包含每个文件夹中的文件。
当你不指定“IncludeSubfolders”
,则默认值为假
.
的“IncludeSubfolders”
名称-值对仅在创建以下对象时有效:
tabulartextdatastore.
ImageDatastore
SpreadsheetDatastore
FileDatastore
KeyValueDatastore
ParquetDatastore
例子:'insertumubfolders',真实
数据类型:逻辑
|双倍的
'fileextensions'
- - - - - -文件扩展名文件的扩展名,以逗号分隔的对指定,由'fileextensions'
字符向量,字符向量的单元数组,字符串标量,或字符串数组。当指定'fileextensions'
还,指定'类型'
.您可以使用空引号''
表示没有扩展的文件。
如果'fileextensions'
那么,不是指定的吗数据存储
根据数据存储类型自动包含所有支持的文件扩展。金宝app如果要包含不受支持的扩展,则指定要单独包含的每个扩金宝app展名。
为tabulartextdatastore.
对象,支持的扩展包金宝app括。文本文件
,.csv.
,.dat
,.dlm
,.sc.
,。text
,没有延伸。
为ImageDatastore
对象,支持的扩展包金宝app括全部imformats.
扩展。
为SpreadsheetDatastore
对象,支持的扩展包金宝app括xls
,.xlsx.
,.xlsm.
,.xltx.
,.xltm.
.
为TallDatastore
对象,支持的扩展包金宝app括.mat
和.seq
.
为ParquetDatastore
对象,支持的扩展包金宝app括.parquet
和.parq.
.
的'fileextensions'
名称-值对仅在创建以下对象时有效:
tabulartextdatastore.
ImageDatastore
SpreadsheetDatastore
FileDatastore
KeyValueDatastore
ParquetDatastore
例子:'fileextensions','。jpg'
例子:'fileextensions',{'。txt','。文本'}
数据类型:char
|细胞
|细绳
“AlternateFileSystemRoots”
- - - - - -备用文件系统根路径备用文件系统根路径,指定为逗号分隔对组成“AlternateFileSystemRoots”
一个字符串向量或单元格数组。使用“AlternateFileSystemRoots”
当您在本地机器上创建数据存储,但需要在另一台机器(可能是不同的操作系统)上访问和处理数据时。此外,当使用并行计算工具箱™处理数据时马铃薯®并行服务器™,数据存储在本地机器上,不同平台云或集群机器上可用的数据的副本,您必须使用“AlternateFileSystemRoots”
要关联根路径。
若要将一组彼此等价的根路径关联起来,请指定“AlternateFileSystemRoots”
作为一个字符串向量。例如,
[" Z: \数据集”、“/ mynetwork /数据集”)
若要关联与数据存储等价的多组根路径,请指定“AlternateFileSystemRoots”
作为包含多行的单元数组,其中每行代表一组等效根路径。将单元格数组中的每一行指定为字符串向量或字符向量的小区数组。例如:
指定“AlternateFileSystemRoots”
作为串向量的单元阵列。
{[Z: \“数据集”、“/ mynetwork /数据集”);…[" Y: \数据集”、“/ mynetwork2 /数据集”、“年代:\数据集”)}
另外,指定“AlternateFileSystemRoots”
作为单元数组的单元数组的字符向量。
{{'z:\ datasets','/ mynetwork / datasets'}; ... {'y:\ datasets','/ mynetwork2 / datasets','s:\ datasets'}}
的价值“AlternateFileSystemRoots”
必须满足这些条件:
包含一行或多行,其中每行指定一组等价的根路径。
每行指定多个根路径,每个根路径必须至少包含两个字符。
根路径是唯一的,不是彼此的子文件夹。
包含至少一个指向文件位置的根路径项。
有关更多信息,请参见为不同机器或集群上的处理设置数据存储.
例子:[" Z: \数据集”、“/ mynetwork /数据集”)
数据类型:细绳
|细胞
'texttype'
- - - - - -输出数据类型的文本变量“字符”
(默认)|'细绳'
文本变量的输出数据类型,由逗号分隔的对组成'texttype'
和任何一种“字符”
或'细绳'
.如果输出表来自读
,readall
,或预习
函数包含文本变量'texttype'
指定这些变量的数据类型tabulartextdatastore.
和SpreadsheetDatastore
仅对物体。如果'texttype'
是“字符”
,然后输出是字符向量的小区阵列。如果'texttype'
是'细绳'
,则输出具有类型细绳
.
数据类型:char
|细绳
“DatetimeType”
- - - - - -用于导入日期和时间数据的类型'约会时间'
(默认)|“文本”
用于导入日期和时间数据的类型,指定为逗号分隔的对,由“DatetimeType”
其中一个值是:'约会时间'
或“文本”
.的“DatetimeType”
参数仅在创建A时适用tabulartextdatastore.
对象。
价值 | 导入日期和时间数据的类型 |
---|---|
'约会时间' |
马铃薯 有关更多信息,请参见 |
“文本” |
如果
|
例子:“DatetimeType”、“日期时间的
数据类型:char
|细绳
“DurationType”
- - - - - -持续时间数据的输出数据类型'期间'
(默认)|“文本”
文本文件的持续时间数据的输出数据类型,由逗号分隔的对组成“DurationType”
和任何一种'期间'
或“文本”
.
价值 | 导入持续时间数据的类型 |
---|---|
'期间' |
马铃薯 有关更多信息,请参见 |
“文本” |
如果
|
数据类型:char
|细绳
|datetime
“VariableNamingRule”
- - - - - -标志以保留变量名称“修改”
(默认)|'保存'
标志以保留变量名称,指定为逗号分隔的配对组成VariableNamingRule
和任何一种“修改”
或'保存'
.
“修改”
- 转换无效的变量名称(由此确定)isvarname
功能)到有效的MATLAB标识符。
'保存'
-保留不是有效的MATLAB标识符的变量名,例如包含空格和非ascii字符的变量名。
从R2019b开始,变量名和行名可以包含任何字符,包括空格和非ascii字符。此外,它们可以以任何字符开头,而不仅仅是字母。变量和行名不必是有效的MATLAB标识符(如由isvarname
功能)。要保留这些变量名和行名,请将值设置为VariableNamingRule
来'保存'
.
数据类型:char
|细绳
除了这些名称-值对之外,您还可以将以下对象的任何属性指定为名称-值对,除了文件
属性:
ds
—用于采集数据的数据存储tabulartextdatastore.
|ImageDatastore
|SpreadsheetDatastore
|KeyValueDatastore
|FileDatastore
|TallDatastore
|……一个数据集合的数据存储,返回为以下对象之一:tabulartextdatastore.
,ImageDatastore
,SpreadsheetDatastore
,KeyValueDatastore
,FileDatastore
,TallDatastore
,ParquetDatastore
,或DatabaseDatastore
.数据存储的类型取决于文件的类型或地点
论点。有关更多信息,请单击下表中的数据存储名称:
类型 | 输出 |
---|---|
文本文件 | tabulartextdatastore. |
图像文件 | ImageDatastore |
电子表格文件 | SpreadsheetDatastore |
生成的mat文件或序列文件Mapreduce. |
KeyValueDatastore |
自定义格式文件 | FileDatastore |
生成的mat文件或序列文件写 的函数高 数据类型。 |
TallDatastore |
镶花的文件 | ParquetDatastore |
数据库 | DatabaseDatastore (数据库工具箱) |
对于每一种数据存储类型,均使用文件
属性是字符向量的单元格数组。属性解析的文件的绝对路径地点
论点。
CombinedDatastore
|fileDatastore
|imageageAtastore.
|imformats.
|javaaddpath
|Mapreduce.
|parquetDatastore
|spreadsheetDatastore
|tabulartextdatastore.
|高
|TransformedDatastore
您点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。金宝app
你也可以从以下列表中选择一个网站:
请选择表现最佳的中国网站(中文或英文)。MathWorks的其他国家网站并没有针对您所在位置的访问进行优化。