このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。
関数数据存储
は,大きすぎてメモリに収まらないデータの集まりのリポジトリであるデータストアを作成します。データストアを使用すると、ディスク、リモートの場所、またはデータベースの複数のファイルに格納されているデータを単一エンティティとして読み取りおよび処理できます。データが大きすぎてメモリに入らない場合は、データをインクリメンタルにインポートすることで対応するか、高
配列を作成してデータを操作するか,次の処理のためにmapreduce
の入力としてデータストアを使用します。詳細は,データストア入門を参照してください。
データストアは,単一のファイルまたはファイルやデータのコレクションを読み取るオブジェクトです。
データまたはアプリケーションのファイル形式に基づいて,適切なデータストアを選択する。
次の例では,表形式データを含む大規模なテキストファイル用のデータストアを作成し,次にデータを1ブロックずつまたは1ファイルずつ読み取って処理する方法を説明します。
この例では,イメージのコレクション用のデータストアの作成,イメージファイルの読み取り,ならびに色相,彩度および明度(HSV)の最大平均値をもつイメージの検出を行う方法を説明します。
次の例では,mapreduce
の出力である垫ファイル内のキーと値のペアのデータに対するデータストアを作成する方法を示します。
次の例では,キーと値のデータを含むシーケンスファイルのデータストアを作成する方法を示します。
Amazon S3™,微软®Azure®存储Blob,またはHDFS™で,リモートデータを操作する。
異なるマシンまたはクラスターで処理するためのデータストアの設定
別のマシンまたはクラスターに読み込み,処理できるデータストアをマシン上で設定。
カスタムデータや独自のデータ用に完全にカスタマイズされたデータストアを作成する。
この例では,書き込み操作をサポートするカスタムデータストアの開発方法を説明します。
カスタムデータストアの実装が完了したら,このテスト手順に従ってカスタムデータストアを検定します。