他の製品による tall 配列の拡張

使用する製品:Statistics and Machine Learning Toolbox™、Database Toolbox™、Parallel Computing Toolbox™、MATLAB^®Parallel Server™、MATLAB Compiler™

いくつかのツールボックスは、tall 配列の機能を拡張します。これらの拡張機能には、機械学習アルゴリズムの記述、ビッグデータシステムとの統合、およびスタンドアロンアプリの配布などがあります。

Statistics and Machine Learning

Statistics and Machine Learning Toolbox によって、tall 配列に対する高度な統計計算を実行できます。次のような機能があります。

k-means クラスタリング
線形回帰近似
グループ化された統計
分類

詳細については、tall 配列によるビッグデータの分析(统计学的tics and Machine Learning Toolbox)を参照してください。

コードの実行場所の制御

tall 配列の計算を実行する際、既定の実行環境ではローカル MATLAB セッションか、または Parallel Computing Toolbox がある場合にはローカル並列プールを使用します。Parallel Computing Toolbox、MATLAB Parallel Server、またはMATLAB Compilerを使用する場合、tall 配列の実行環境を変更するには、関数mapreducerを使用します。

Parallel Computing Toolbox — ローカルワーカーまたはクラスターワーカーを使用して並列計算を実行し、大規模な tall 配列の計算を高速化。詳細については、並列プールでの tall 配列の使用(Parallel Computing Toolbox)またはクラウドでのビッグデータの処理(Parallel Computing Toolbox)を参照してください。
MATLAB Parallel Server— Apache Spark™ 対応 Hadoop^®クラスターなどのクラスターで tall 配列の計算を実行。これにより、非常に大きな計算の実行時間を大幅に短縮できます。詳細については、Spark 対応 Hadoop クラスターでの tall 配列の使用(Parallel Computing Toolbox)を参照してください。
MATLAB Compiler— tall 配列を含んだ MATLAB アプリケーションを Apache Spark のスタンドアロンアプリとして配布。詳細については、Spark アプリケーション(MATLAB Compiler)を参照してください。

tall 配列を使用したアルゴリズム開発の利点の 1 つは、コードの記述が一度で済むことです。ローカルでコードを開発した後、mapreducerを使用してスケールアップすることで、アルゴリズムを書き換えることなく Parallel Computing Toolbox、MATLAB Parallel Server、MATLAB Compilerなどが提供する機能を活用できます。

メモ

tall 配列は、tall(ds)を使用して作成された場合、それぞれが 1 つの実行環境にバインドされます。その実行環境が後から変更または削除された場合、tall 配列は無効になります。

このため、実行環境を変更するたびに tall 配列を再構成しなければなりません。

データベースとの連携

Database Toolbox によって、データベース内のデータでバックアップされたDatabaseDatastoreから tall table を作成できます。詳細については、Analyze Large Data in Database Using Tall Arrays(Database Toolbox)を参照してください。

メモ

DatabaseDatastoreには以下の制限があります。

DatabaseDatastoreは、実行環境としてローカルの MATLAB セッションを使用しなければなりません。コマンドmapreducer(0)を使用して、この環境を設定します。
DatabaseDatastoreを使用する tall 配列を含んだスタンドアロンアプリケーションは、MATLAB Compilerを使用して Apache Spark に配布することはできません。

参考

mapreducer|gcmr|tall