主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

数据存储

データの大規模な集合用のデータストアを作成

説明

ds=数据存储(位置は,位置で指定されたデータの集合からデータストアを作成します。データストアとは、大きすぎてメモリに収まらないデータのコレクションを格納したリポジトリです。dsの作成後,データを読み取って処理できます。

ds=数据存储(位置名称,值は1つ以上の名前と値のペアの引数を使用して,dsに追加のパラメーターを指定します。たとえば,“类型”,“图像”を指定して,イメージファイルのデータストアを作成できます。

すべて折りたたむ

サンプルファイルairlinesmall.csvに関連付けられたデータストアを作成します。このファイルには1987年から2008年までの航空会社のデータが格納されています。

数値列の欠損データのインポートを管理するには,名前と値のペアの引数“TreatAsMissing”および“MissingValue”を使用します。“TreatAsMissing”の値を“NA”“MissingValue”の値を0に指定して,インポートデータで“NA”のすべてのインスタンスを0に置き換えます。

ds =数据存储(“airlinesmall.csv”“TreatAsMissing”“NA”...“MissingValue”, 0)
ds = TabularTextDatastore属性:文件 : { ' .../ 猛击/棒/ Bdoc21a /构建/ matlab工具箱/ matlab /演示/ airlinesmall.csv’}文件夹:{' / mathworks /猛击/棒/ Bdoc21a /构建/ matlab工具箱/ matlab /演示'}FileEncoding:“utf - 8”AlternateFileSystemRoots: {} VariableNamingRule:“修改”ReadVariableNames:真VariableNames:{'Year', 'Month', 'DayofMonth'…DatetimeLocale: en_US Text Format Properties: NumHeaderLines: 0 Delimiter: ',' RowDelimiter: '\r\n' TreatAsMissing: 'NA' MissingValue: 0 Advanced Text Format Properties: TextscanFormats: {'%f', '%f', '%f'…和26 more} TextType: 'char' ExponentCharacters: 'eEdD' CommentStyle: " Whitespace: ' \b\t' MultipleDelimitersAsOne: false属性,控制由preview, read, readall返回的表:{'Year', 'Month', 'DayofMonth'…和26}SelectedFormats: {% f ', ' % f ', ' % f '……and 26 more} ReadSize: 20000 rows OutputType: 'table' RowTimes: [] Write-specific Properties: 金宝appSupportedOutputFormats: ["txt" "csv" "xlsx" "xls" "parquet" "parq"] DefaultOutputFormat: "txt"

数据存储TabularTextDatastoreを作成します。

MATLAB®パスおよびそのサブフォルダー内にあるすべての.tifファイルを含むデータストアを作成します。

ds =数据存储(fullfile (matlabroot,“工具箱”matlab的),...“IncludeSubfolders”,真的,“FileExtensions”“.tif”“类型”“图像”
文件:{'…\matlab\工具箱\matlab\demo \example.tif';'…\matlab\工具箱\matlab\imagesci\ cort .tif'} ReadSize: 1标签:{}ReadFcn: @readDatastoreImage

入力引数

すべて折りたたむ

データストアに含めるファイルまたはフォルダー。パスまたはDsFileSetオブジェクトとして指定します。

  • パス——ローカルやリモートのファイルまたはフォルダーの場所を含む文字ベクトル,文字ベクトルの细胞配列,字符串スカラー,または字符串配列としてパスを指定します。

    • ローカルのファイルまたはフォルダー——ファイルまたはフォルダーのローカルパスとして位置を指定します。ファイルが現在のフォルダーに存在しない場合,ローカルパスは絶対パスまたは相対パスを指定しなければなりません。指定したフォルダーのサブフォルダー内にあるファイルは,自動ではデータストアに含まれません。ローカルパスを指定するときにワイルドカード文字(*)を使用できます。この文字は,一致するフォルダー内にある,すべてのファイルまたは一致するすべてのファイルをデータストアに含めることを指定します。

    • リモートのファイルまたはフォルダー-位置hdfs: / / / path_to_fileの形式の统一资源定位符(URL)として,ファイルまたはフォルダーの絶対パスに指定します。詳細については,リモートデータの操作を参照してください。

  • DsFileSetオブジェクト-位置DsFileSetオブジェクトとして指定することもできます。詳細については,matlab.io.datastore.DsFileSetを参照してください。

位置がフォルダーを表す場合,データストアにはサポートされているファイル形式のみが含まれ,その他の形式は無視されます。データストアに含めるファイル拡張子のカスタムリストを指定するには,FileExtensionsプロパティを参照してください。

KeyValueDatastoreの場合,ファイルは関数mapreduceで生成された垫ファイルまたはシーケンスファイルでなければなりません。垫ファイルはローカルファイルシステムまたはネットワークファイルシステムになければなりません。シーケンスファイルは,ローカル,ネットワークまたはHDFS™のファイルシステムに配置できます。DatabaseDatastoreの場合,引数位置がファイルである必要はありません。詳細については,DatabaseDatastore(数据库工具箱)を参照してください。

例:“file1.csv”

例:“. . / dir /数据/ file1.jpg”

例:{“C: \ dir \ data \ file1.xls”,“C: \ dir \ data \ file2.xlsx”}

例:“C: \ dir \ data \ * .mat’

例:“hdfs: / / /数据/中”

名前と値のペアの引数

オプションの名称,值の引数ペアをコンマ区切りで指定します。的名字は引数名で,价值は対応する値です。的名字は引用符で囲まなければなりません。Name1, Value1,…,的家のように,複数の名前と値のペアの引数を任意の順序で指定できます。

例:FileExtensions,{“jpg”、“.tif”}は,ImageDatastoreオブジェクトについて,jpgまたは.tifの拡張子をもつすべてのファイルを含めます。

データストアの種類。“类型”と次のいずれかで構成されるコンマ区切りのペアとして指定します。

“类型”の値 説明
“tabulartext” 表形式データを含むテキストファイル。データのエンコードはASCIIまたはutf - 8でなければなりません。
“图像” JPEGやPNGなどの形式のイメージファイル。使用できるファイルにはimformats形式が含まれます。
“表格” 1つ以上のシートを含むスプレッドシートファイル。
“keyvalue” 垫ファイルまたはシーケンスファイルに含まれ,mapreduceで生成したデータをもつキーと値のペアのデータ。
“文件” データの読み取りに指定の読み取り関数を必要とするカスタム形式ファイル。詳細については,FileDatastoreを参照してください。
“高” データ型の関数によって生成された垫ファイルまたはシーケンスファイル。詳細については,TallDatastoreを参照してください。
“铺” 列方向データを含む铺ファイル。詳細については,ParquetDatastoreを参照してください。
“数据库” データベースに保存されたデータ。数据库工具箱™が必要です。类型パラメーターを使用する場合は,追加の入力引数を指定する必要があります。詳細については,DatabaseDatastore(数据库工具箱)を参照してください。
  • ファイル形式をサポートする種類が複数ある場合は,引数“类型”を使用してデータストアの種類を指定します。

  • “类型”の値を指定しない場合,作成するデータストアの適切な種類はファイルの拡張子に基づいて数据存储により自動的に判別されます。

データ型:字符|字符串

フォルダー内のサブフォルダーを含めるかどうか。“IncludeSubfolders”と,真正的(1)または(0)で構成されるコンマ区切りのペアとして指定します。各フォルダー内のすべてのファイルとサブフォルダーを含めるには真正的を指定し,各フォルダー内のファイルのみを含めるにはを指定します。

“IncludeSubfolders”を指定しない場合,既定値はです。

“IncludeSubfolders”の名前と値のペアは,次のオブジェクトを作成する場合にのみ有効です。

  • TabularTextDatastore

  • ImageDatastore

  • SpreadsheetDatastore

  • FileDatastore

  • KeyValueDatastore

  • ParquetDatastore

例:“IncludeSubfolders”,真的

データ型:逻辑|

ファイルの拡張子。“FileExtensions”と,文字ベクトル,文字ベクトルの细胞配列,字符串スカラーまたは字符串配列で構成されるコンマ区切りのペアとして指定します。“FileExtensions”を指定する場合は“类型”も指定します。空の引用符''を使用して,拡張子のないファイルを表すことができます。

“FileExtensions”を指定しない場合,データストアの種類に応じて,サポートされるすべてのファイル拡張子が数据存储により自動的に含められます。サポートされていない拡張子を含める場合は、含める拡張子を個々に指定します。

  • TabularTextDatastoreオブジェクトの場合,サポートされる拡張子には. txt. csv.dat.dlm.ascおよび。textが含まれます。また,拡張子がない場合もサポートされます。

  • ImageDatastoreオブジェクトの場合,サポートされる拡張子にはすべてのimformatsが含まれます。

  • SpreadsheetDatastoreオブジェクトの場合,サポートされる拡張子にはxls.xlsx.xlsm.xltxおよび.xltmが含まれます。

  • TallDatastoreオブジェクトの場合,サポートされる拡張子には.matおよび.seqが含まれます。

  • ParquetDatastoreオブジェクトの場合,サポートされる拡張子には.parquetおよび.parqが含まれます。

“FileExtensions”の名前と値のペアは,次のオブジェクトを作成する場合にのみ有効です。

  • TabularTextDatastore

  • ImageDatastore

  • SpreadsheetDatastore

  • FileDatastore

  • KeyValueDatastore

  • ParquetDatastore

例:“FileExtensions”、“jpg”

例:FileExtensions, {' . txt ', '。text '}

データ型:字符|细胞|字符串

代替ファイルシステムのルートパス。“AlternateFileSystemRoots”と字符串ベクトルまたは细胞配列で構成されるコンマ区切りのペアとして指定します。ローカルマシン上にデータストアを作成するが,別のマシン(異なるオペレーティングシステムの可能性がある)上でデータにアクセスして処理する必要がある場合は,“AlternateFileSystemRoots”を使用します。また,并行计算工具箱™とMATLAB®并行服务器™を使用してデータを処理し,そのデータがローカルマシンに保存され,そのデータのコピーが異なるプラットフォームのクラウドやクラスターマシンにある場合,“AlternateFileSystemRoots”を使用してルートパスを関連付けなければなりません。

  • 相互に対応する1組のルートパスを関連付けるには,“AlternateFileSystemRoots”を字符串ベクトルとして指定します。以下に例を示します。

    [" Z: \数据集”、“/ mynetwork /数据集”)

  • データストアに対応する複数の組のルートパスを関連付けるには,複数行を含む细胞配列として“AlternateFileSystemRoots”を指定します。各行は対応するルートパスの組を表します。细胞配列内の各行を string ベクトル、または文字ベクトルの cell 配列のいずれかとして指定します。以下に例を示します。

    • “AlternateFileSystemRoots”を字符串ベクトルの细胞配列として指定します。

      {[Z: \“数据集”、“/ mynetwork /数据集”);…[" Y: \数据集”、“/ mynetwork2 /数据集”、“年代:\数据集”)}

    • あるいは,“AlternateFileSystemRoots”を文字ベクトルの细胞配列からなる细胞配列として指定します。

      {{“Z: \数据集”、“mynetwork /数据集”},…{“Y: \数据集”,“mynetwork2 /数据集”,年代:\数据集的}}

“AlternateFileSystemRoots”の値は,次の条件を満たさなければなりません。

  • 1行以上の行を含み,各行は1組の対応するルートパスを指定する。

  • 各行は複数のルートパスを指定し,各ルートパスは2文字以上を含まなければならない。

  • ルートパスは一意で,他のルートパスのサブフォルダーではない。

  • ファイルの場所を指す1つ以上のルートパスエントリを含む。

詳細については,異なるマシンまたはクラスターで処理するためのデータストアの設定を参照してください。

例:[" Z: \数据集”、“/ mynetwork /数据集”)

データ型:字符串|细胞

テキスト変数の出力データ型。“TextType”“字符”または“字符串”のいずれかで構成されるコンマ区切りのペアとして指定します。関数readallまたは预览の出力テーブルにテキスト変数が含まれる場合,“TextType”は,TabularTextDatastoreオブジェクトおよびSpreadsheetDatastoreオブジェクトについてのみ,それらの変数のデータ型を指定します。“TextType”“字符”の場合,出力は文字ベクトルの细胞配列です。“TextType”“字符串”の場合,出力の型は字符串です。

データ型:字符|字符串

インポートされる日付と時刻のデータの型。“DatetimeType”と,“datetime”または“文本”のいずれかの値で構成されるコンマ区切りのペアとして指定します。“DatetimeType”引数は,TabularTextDatastoreオブジェクトを作成する場合にのみ適用されます。

インポートされる日付と時刻のデータの型
“datetime”

MATLABのdatetimeデータ型

詳細については,datetimeを参照してください。

“文本”

“DatetimeType”“文本”として指定した場合,インポートされる日付と時刻のデータの型は“TextType”パラメーターで指定された値によって決まります。

  • “TextType”“字符”の場合,数据存储は日付を文字ベクトルの细胞配列として返します。

  • “TextType”“字符串”の場合,数据存储は日付を字符串配列として返します。

例:“DatetimeType”、“日期时间的

データ型:字符|字符串

テキストファイルからの时间データの出力データ型。“DurationType”“持续时间”または“文本”のいずれかで構成されるコンマ区切りのペアとして指定します。

インポートされる时间データの型
“持续时间”

MATLABの持续时间データ型

詳細については,持续时间を参照してください。

“文本”

“DurationType”“文本”として指定した場合,インポートされる时间データの型は“TextType”パラメーターで指定された値によって決まります。

  • “TextType”“字符”の場合,インポート関数は时间データを文字ベクトルの细胞配列として返します。

  • “TextType”“字符串”の場合,インポート関数は时间データを字符串の配列として返します。

データ型:字符|字符串|datetime

変数名を保持するかどうかのフラグ。VariableNamingRuleと,“修改”または“保存”のいずれかで構成されるコンマ区切りのペアとして指定します。

  • “修改”——無効な変数名(関数isvarnameで判定)を有効なMATLAB識別子に変換。

  • “保存”——スペースや非ASCII文字を含む変数名など,有効なMATLAB識別子ではない変数名を保持。

R2019b以降,変数名と行名には,スペースや非ASCII文字など任意の文字を含めることができます。また,英字だけでなく任意の文字で始めることができます。変数名と行名は,有効なMATLAB識別子(関数isvarnameで判定)である必要はありません。これらの変数名と行名を保持するには,VariableNamingRuleの値を“保存”に設定します。

データ型:字符|字符串

これらの名前と値のペアに加えて,次のオブジェクトの任意のプロパティも名前と値のペアとして指定できます。ただし,文件プロパティを除きます。

出力引数

すべて折りたたむ

データの集合のデータストア。TabularTextDatastoreImageDatastoreSpreadsheetDatastoreKeyValueDatastoreFileDatastoreTallDatastoreParquetDatastore,またはDatabaseDatastoreの各オブジェクトのいずれかとして返されます。データストアの種類は,ファイルの種類または引数位置によって決まります。詳細については,次の表のデータ ストア名をクリックしてください。

タイプ 出力
テキストファイル TabularTextDatastore
イメージファイル ImageDatastore
スプレッドシートファイル SpreadsheetDatastore
mapreduceによって生成された垫ファイルまたはシーケンスファイル KeyValueDatastore
カスタム形式ファイル FileDatastore
データ型の関数によって生成された垫ファイルまたはシーケンスファイル。 TallDatastore
镶木地板ファイル ParquetDatastore
データベース DatabaseDatastore(数据库工具箱)

これらの各データストアの種類の場合,文件プロパティは文字ベクトルの细胞配列です。個々の文字ベクトルは,位置引数に関連付けられたファイルへの絶対パスです。

R2014bで導入