主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

主成分分析(PCA)

多変量統計に固有の問題は,多くの変数をもつデータを可視化できないという点にあります。関数情节は2つの変数の関係のグラフを表示します。plot3冲浪コマンドは3次元での別の表示をします。しかし3つ以上の変数があるとき,変数の関係を可視化することは,さらに困難です。

データセットに多数の変数が含まれていて,変数のグループが一緒に動く場合があります。この理由として,システムの動きを支配している同じ原則を,複数の変数が観測している,ということが考えられます。多くのシステムにおいて,このようなシステムの動きに影響を与えるものは2、3しかありません。しかし計測手段が豊富であるために,多くのシステム変数を測定してしまうことになります。このようなことが起きる場合は,情報の重複を利用することができます。新しい1つの変数を使って変数グループを置き換えると,問題を単純化することができます。

主成分分析は,上記の単純化を実行するための量的に正確な方法です。この方法では,"主成分"と呼ばれる新しい変数群を出力します。各主成分は,元の変数との線形結合です。すべての主成分は互いに直交しているので、余分な情報はありません。主成分は全体として、データ空間の直交基底を作ります。

数列のデータの直交基底を作るには,無限の方法があります。主成分の基底について,特別なものには何があるでしょうか。

第1主成分は,空間での1つの軸です。各観測をこの軸上に射影したとき,結果の値は1つの新しい変数を形成します。この値の分散は,最初の軸を決定するときに最大量を選択します。

第2主成分は,空間内の別の軸で,第1主成分に直交します。この軸に観測を射影すると,新しい変数を発生します。この変数の分散は,この2番目の軸を決定する場合に,最大量を選択します。

主成分の数は,元の変数の数と同じです。最初の2、3個の主成分の分散の和が,元のデータの分散の合計の80%を超えることはよくあることです。これらの2、3個の新しい変数を確認することで,元のデータを発生させた影響について,より理解が深くなる可能性があります。

関数主成分分析は,主成分を見つけるために使用されます。主成分分析を使用するには,解析する実際の測定データが必要です。しかし,実際のデータがなく,データの標本共分散または相関行列がある場合は,関数pcacovを使用して,主成分分析を実行できます。その入力と出力の説明は,pcacovに対するリファレンスページを参照してください。

参考

|||

関連するトピック