主要内容

。

PPCA

确率的主成分分享

説明

COEFF.分数pcvar] = PPCA(YKは,确率的主成分分享(PPCA)に基づいてn行P列の行Yの主成分係数を返します。また,主成分スコア,つまり,主成分空間内のYの表現と,主成分分散,つまりpcvarYのの分类行为の固固値も返し。

COEFF.の列ごとに1つの主成分の係数が含まれ,これらの列は成分分散の降順で並びます。分数の行は観測値に対応し,列は成分に対応します。Yの行は観測値に対応し,列は変数に対応します。

データベクトルに1つ以上の欠損値がある場合,交互最小二乗アルゴリズムなど欠損値を認識する他のアルゴリズムよりも,確率的主成分分析が推奨される場合があります。この分析では,値がデータセット全体で無作為に欠損していると仮定します。完全なデータと欠損データの両方に期待値最大化アルゴリズムが使用されます。

COEFF.分数pcvar] = PPCA(YK名称,值は1つまたは複数の名称,值ペア引数により指定され,特殊なデータ型の計算と処理を行う追加オプションを使用すると,主成分の係数,スコアおよび分散を返します。

たとえば,残差分散vの初期値を導入したり,終了基準を変更できます。

COEFF.分数pcvarμ] = PPCA(___は,Yの各変の推定値も返します。前前の构ののの入使のいずれかを用できでき

COEFF.分数pcvarμv年代] = PPCA(___は,vの等方性残差分散と,構造体年代の収束における最終的な結果も返します。

すべて折りたたむ

標本データを読み込みます。

负载fisheriris

双行列测定は花に関する4種類の測定値,がく片の長さと幅(cm)と花弁の長さと幅(cm)で構成されています。

欠損値を無作為に導入します。

y =量;rng ('默认');%的再现性ix =随机(“unif”,0,1,尺寸(y))<0.20;Y(ix)= nan;

ここでは,で示されているように,データのおよそ20%が欠损しています。

〖support〗,成分,成分としとし,成分系し。

[Coeff,得分,PCVAR,MU] = PPCA(Y,3);COEFF.
多项式系数=4×30.3562 0.6709 -0.5518 -0.0765 0.7120 0.6332 0.8592 -0.1597 0.0596 0.3592 -0.1318 0.5395
pcvar
PCVAR =3×14.0914 0.2125 0.0617

Supply obs obs

[COEFF2,得分2,PCVAR2,MU2] = PCA(Y,'算法''als'......'numcomponents'3);coeff2
COEFF2 =4×30.3376 0.4952 0.7406 -0.0731 0.8609 -0.4476 0.8657 -0.1168 -0.1233 0.3623 -0.0086 -0.4857
PCVAR2.
pcvar2 =3×14.0733 0.2652 0.1222

最初の2つの主成分数と分数と似いいいいい

結果を比較するもう1つの方法として,係数ベクトルの範囲内の2つの空間に存在する角度を見つけます。

子空间(Coeff,Coeff2)
ans = 0.0884

2。はは2つの结果相互にことををしますははををしますにことを意味します。

標本データセットを読み込みます。

负载进口- 85

データ行列Xにに,3列目から15列目に13个の连続闻名数量が含まてい(轮底,长度,宽度,高度,遏制重量,发动机尺寸,孔,行程,压缩比,马力,峰值-RPM,City-MPG,高速公路MPG).boreと行程のの変各の56〜59行の4つの値と,马力と峰值rpmの各各数号131行目132行目のの2つの値が欠けています。

确率主的主成分分类し実,最初の3つの主成分。

[多项式系数,分数,pcvar] =车牌提取(X (:, 3:15), 3);
警告:达到的最大迭代次数为1000。

コスト関数の終了許容誤差を0.01に変更します。

opt = statset(“车牌提取”);opt.TolFun = 0.01;

確率的主成分分析を実行します。

[coeff,score,pcvar] = ppca(x(:,3:15),3,'选项',选择);
警告:达到的最大迭代次数为1000。

PPCAは,最大反复数号相关数目许容误差ににてている,最大反复反复にに前に终了します。

標本データを読み込みます。

负载哈尔德y =成分;

成分データは,4次変数に対しての13の観测値があり。

データデータに欠损値値を导入しし

y(16:结束)=南;

16个中1个の値がです。これはデータの7.69%に相当します。

车牌提取を使用してデータの最初の3つの主成分を検出し,再構成された観測値を表示します。

[多项式系数,分数,pcvar、μv, S] =车牌提取(y, 3);
警告:达到的最大迭代次数为1000。
S.Recon
ans =13×4.6.8536 25.8700 5.8389 59.8730 1.0433 28.9710 14.9654 51.9738 11.5770 56.5067 8.6352 20.5076 11.0835 31.0722 8.0920 47.0748 7.0679 52.2556 6.0748 33.0598 11.0486 55.0430 9.0534 22.0423 2.8493 70.8691 16.8339 5.8656 1.0333 31.0281 19.6907 44.0306 2.0400 54.0354 18.0440 22.0349 20.7822 46.8091 3.7603 25.8081⋮

また,主成分推定平衡を使って観测値を再成することもますできできできでき。

t =得分* coeff'+ repmat(mu,13,1);

データを読み込みます。

负载哈尔德

ここで,配料は,予测子仪数量の値行列です。

确率主成分分类をを行,系数を表示ます。

[Coeff,Score,PCVariance,MU,V,S] = PPCA(成分,3);
警告:达到的最大迭代次数为1000。
COEFF.
多项式系数=4×3-0.0693 -0.6459 0.5673 -0.6786 -0.0184 -0.5440 0.0308 0.7552 0.4552 0.4306 -01102 -0.4684

车牌提取の収束におけるアルゴリズムの結果を表示します。

年代
S =结构体字段:W: [4x3 double] Xexp: [13x3 double] Recon: [13x4 double] v: 0.2372 NumIter: 1000 RMSResid: 0.2340 nloglk: 149.3388

行程Wを表示します。

白雪
ans =4×30.5624 2.0279 5.45.8320 -10.3894 5.9202 -3.7521 -3.0555 -4.1552 -1.5144 11.7122 -7.2564

Wを直交すると,係数が復元します。

奥尔特(白雪)
ans =4×3-0.0693 0.6459 0.5673 0.6786 0.0184 -0.5440 0.0308 -0.7552 0.4036 0.7306 0.1102 -0.4684

入力数

すべて折りたたむ

主成分を計算する入力データ。n行p列の行列として指定します。Yの行は観測値に対応し,列は変数に対応します。

データ型:单身的|双倍的

返さ返さ主成分数。データデータのランクよりもさいさい整値しししし指定しはははははなな最最ランクはここで,nは観测の,pは函数の数。ただし,データが相关する料,ランクはmin(n,p)よりも小さく可性があります。

PPCAは,分类に基于てを付けます。

Kがmin(n,p)のの合,PPCAKをmin(n,p) - 1と等しくなるように设定,p行p列のW0.行列を指定しててて合书,'w0'はmin(p,n) - 1列まで切り诘められ。

たとえば,次のような成分分散に基づいて,最初の3つの成分のみを要求できます。

例:多项式系数=车牌提取(Y, 3)

データ型:单身的|双倍的

名称と値のペアペアの数

オプションの名称,值引数のコンマ区切りペアを指定します。名称は引数名で,价值は対応する値です。名称はは用符符で囲まなけれなけれなりませませませなりませませname1,value1,...,namen,valuenのように,複数の名前と値のペアの引数を,任意の順番で指定できます。

例:'w0',init,'选项',选择は,'w0'の初期値が行列初始化内にあり,PPCA选择で定義されたオプションを使用することを指定します。

确率的主成分分享アルゴリズムのWのの初値。'w0'とp行k列の行列构成される区切りのペア指定指定しますます。

データ型:单身的|双倍的

残差分类散の値。'v0'と正のスカラー値で構成されるコンマ区切りのペアとして指定します。

データ型:单身的|双倍的

反復のオプション。'选项'と,関数实例化で作物さ构造体の区区のペアとして指定ししし指定ししPPCAはオプション構造体の次のフィールドを使用します。

'展示' 表示出力レベル。選択肢は,'离开''最后'および“通路”です。
'maxiter' 许容许容される最ステップステップはははははとはは异なりは定定値はととははmaxiter.の値に達すると収束したと見なされます。
'tolfun' コスト関数の終了許容誤差を指定する正の整数。既定値は1 e-6です。
“TolX” Wの要素の相対的な変更に対する収束しきい値を示す正の整数。既定値は1 e-6です。

これらのフィールドの値を変更し,'选项'の名前と値のペア引数を使ってPPCAで新しい構造体を指定することができます。

例:选择= statset(车牌提取);opt.MaxIter = 2000;多项式系数=车牌提取(Y, 3,“选项”,选择);

データ型:结构体

出力引数

すべて折りたたむ

P行k列の行列返される,主成分别。COEFF.の各列には1つの主成分の係数が含まれます。列は,成分分散pcvarの降順になります。

主成分のスコア。n行k列の行列として返されます。分数の行は観測値に対応し,列は成分に対応します。

主成分の分享。これこれYの共分类行为の固値で,列ベクトルとして返され。

Yの各各数号推定値。行ベクトルとして返され。

等方性残差分散。スカラー値として返されます。

収束における最終結果。以下のフィールドを含む構造体として返されます。

W 収束におけるW。
XEXP. 推定された现出的xのx付き付き値。
recon k主成分を使って再構成された観測。入力データYのの低次元元の近似,μ+分数多项式系数的と等しくなります。
v 残差分子。
RMSRESID. 残差の平方根平均二乗。
NumIter 反復回数。
nloglk 负负函数尤度关键词。

詳細

すべて折りたたむ

确率的主成分分享

车牌提取(確率的主成分分析)は,データベクトルに1つ以上の欠損値が含まれているときに主軸を推定する方法です。

车牌提取は,等方誤差モデルに基づいています。车牌提取はp次元の観測ベクトルyを,平均0と共分散我(k)の正規である,潜在的な(未観測の)変数xの対応するk次元のベクトルに関連付けようとします。この関係は次のように表されます。

y T W x T + μ. + ε.

ここでyは観測した変数が含まれている行ベクトル,xは潜在的な変数が含まれている行ベクトル,εは等方誤差項です。εは平均が0,共分散がv * (k)のガウス分布で,vは残差分散です。この場合,kは,残差分散が0より大きくなるように(v > 0),ランクよりも小さくする必要があります。残差分散が0になる標準の主成分分析は,车牌提取の特別な場合です。観測された変数yは潜在的変数の値xを与えると条件付きで独立します。そのため,潜在的変数は,観測変数間の相関を説明し,誤差は特定のyに固有の変動性を説明します。P行k列の行列Wは,潜在的変数と観測変数を関連付け、ベクトル μ はモデルに非ゼロの平均が含まれることを許可します。PPCA では、値がデータセット全体でランダムに欠損していると仮定します。つまり、データ値が欠損しているかどうかは、観測されたデータ値に依存し、潜在的変数には依存していていません。

このモデルでは,次のようになり。

y N μ. W W T + v k

Wとvには閉じた形での分析解法がないため,それらの推定値は,期待値最大化(EM)アルゴリズムを使って対応する対数尤度の反復最大化によって決まります。このEMアルゴリズムでは欠損値を追加の潜在的変数として扱います。収束においてWの列は部分空間に広がりますが,正規直交ではありません。PPCAは,wの直交化成分数に対する正规数COEFF.を取得します。

参照

[1]给小费,m.e.和c.m.毕晓普。概率主成分分析。皇家统计学会杂志。B辑(统计方法论),第61卷第3期,1999年,第611-622页。

[2] Roweis,S.“PCA和SPCA的EM算法”。在1997年的神经信息处理系统进步会议上的议程中。Vol.10(NIPS 1997),剑桥,马,美国:MIT Press,1998,PP。626-632。

伊林·A·赖科和t·赖科。缺失值存在时主成分分析的实用方法j·马赫。学习。Res . .第11卷,2010年8月,1957-2000页。

R2013aで導入