このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。
Rubustcov
ロバスト多変量共分散および平均の推定
构文
说明
例
距离-距离距离のによる外れ値検出検出
ガウス型コピュラを使用して、二変量分布からランダムなデータ点を生成します。
rngdefaultrho = [1,0.05;0.05,1]; u = copularnd('Gaussian',Rho,50);
5つたたつ観测値外れ値に変更し。。
noise = randperm(50,5); u(noise,1) = u(noise,1)*5;
使用可能な 3 つの方式を使用して、ロバスト共分散行列を計算します。つまり、高速 MCD、直交 Gnanadesikan-Kettenring (OGK) および Olive-Hawkins です。
[SFMCD,MFMCD,DFMCD,OUTFMCD] = RubustCov(U);[SOGK,MOGK,DOGK,OUTOGK] = RubustCov(U,'方法',,,,'ogk');[[Soh, Moh, doh, Outoh] = robustcov(u,'方法',,,,'olivehawkins');
マハラノビス尺度し,标本データ従来型距离値を计算计算ます。
d_classical = pdist2(u, mean(u),'Mahal');p = size(u,2); chi2quantile = sqrt(chi2inv(0.975,p));
各ロバスト共分散計算法について DD プロットを作成します。
figure subplot(2,2,1) plot(d_classical, dfmcd,'o')线([Chi2Quantile,Chi2Quantile],[0,30],,'color',,,,'r')line([0, 6], [chi2quantile, chi2quantile],'color',,,,'r')holdon绘图(d_classical(OUTFMCD),DFMCD(OUTFMCD),'r+')Xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD Plot, FMCD method')hold离开子图(2,2,2)图(D_Classical,Dogk,'o')线([Chi2Quantile,Chi2Quantile],[0,30],,'color',,,,'r')line([0, 6], [chi2quantile, chi2quantile],'color',,,,'r')holdon情节(D_Classical(Outogk),Dogk(Outogk),'r+')Xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD图,OGK方法')hold离开subplot(2,2,3) plot(d_classical, doh,'o')线([Chi2Quantile,Chi2Quantile],[0,30],,'color',,,,'r')line([0, 6], [chi2quantile, chi2quantile],'color',,,,'r')holdon情节(D_Classical(OutOH),DOH(OUTOH),'r+')Xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD情节,橄榄鹰队方法')hold离开
ddプロットで原点通过する直线データ点集まる集まるありますます。。このこのこの直线直线から离れたた位置にににあるあるある点点は,,一般一般一般にににににであるとである考えはRubustcov
で外れとれた点を示します。
多変量分布のデータ评価评価
この例で,Rubustcov
を使用标本が多変量正规またはの楕轮郭(EC)分布分布であるかを评価评価する示し示します。。。
多変量正規分布から、ランダムな標本データを生成します。ロバスト共分散推定用 (Olive-Hawkins 法を使用) と従来型の共分散推定用のマハラノビス距離を計算します。
rng('default')X1=mvnrnd(zeros(1,3),eye(3),200); [~, ~, d1] = robustcov(x1,'方法',,,,'olivehawkins');d_classical1 = pdist2(x1,平均(x1),'妈alanobis');
楕円輪郭 (EC) 分布から、ランダムな標本データを生成します。ロバスト共分散推定用 (Olive-Hawkins 法を使用) と従来型の共分散推定用のマハラノビス距離を計算します。
mu1 = [0 0 0]; sig1 = eye(3); mu2 = [0 0 0]; sig2 = 25*eye(3); x2 = [mvnrnd(mu1,sig1,120);mvnrnd(mu2,sig2,80)]; [~, ~, d2] = robustcov(x2,'方法',,,,'olivehawkins');d_classical2 = pdist2(x2, mean(x2),'妈alanobis');
多変量対数正規分布から、ランダムな標本データを生成します。これは、多変量正規分布でも楕円輪郭分布でもありません。ロバスト共分散推定用 (Olive-Hawkins 法を使用) と従来型の共分散推定用のマハラノビス距離を計算します。
X3 = exp(x1); [~, ~, d3] = robustcov(x3,'方法',,,,'olivehawkins');d_classical3 = pdist2(x3,平均(x3),,,'妈alanobis');
比較のため、3 組の標本データのそれぞれについて D-D プロットを作成します。
figure subplot(2,2,1) plot(d_classical1,d1,'o')line([0 4.5], [0, 4.5]) xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD Plot, Multivariate Normal')subplot(2,2,2) plot(d_classical2, d2,'o')线([0 18],[0,18])xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD Plot, Elliptically-Contoured')subplot(2,2,3) plot(d_classical3, d3,'o')线([0 18],[0,18])xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD Plot, 200 Lognormal cases')
多変量正規分布のデータ (左上) では、プロットされた点は原点から伸びる 45°の直線に従っています。楕円輪郭分布のデータ (右上) では、プロットされた点は直線に従っていますが、角度は 45°ではありません。対数正規分布 (左下) では、プロットされた点は直線に従っていません。
ほとんどの点がプロットの左下にあるので,対数正規分布のパターンを特定することは困難です。重み付きのDD プロットを使用して、この隅を拡大し、大きいロバスト距離が存在すると明らかではなくなる特徴量を明らかにします。
d3_weighted = d3(d3 < sqrt(chi2inv(0.975,3))); d_classical_weighted = d_classical3(d3 < sqrt(chi2inv(0.975,3)));
4 番目のサブプロットを図に追加して、対数正規分布データに重みを付けた結果を示します。
子图(2,2,4)图(d_classical_weighted,d3_weighted,'o')line([0 3], [0, 3]) xlabel('Mahalanobis距离')ylabel('Robust Distance')title(“加权DD图,200个对数正常情况”)
このプロットのスケールは、対数正規データが元の DD プロットの拡大表示になっていることを示しています。この表示は、プロットにパターンがないことをより明確に示しています。したがって、データが多変量正規分布にも楕円輪郭分布にもなっていないことがわかります。
ロバスト共分散の計算と外れ値のプロット
ガウス型コピュラを使用して、二変量分布からランダムなデータ点を生成します。
rngdefaultrho = [1,0.05;0.05,1]; u = copularnd('Gaussian',Rho,50);
5つたたつ観测値外れ値に変更し。。
noise = randperm(50,5); u(noise,1) = u(noise,1)*5;
散布図を使用して二変量データを可視化します。
图散射(u(::,1),u(::,2))
ほとんどのがのにありますしかし,,の点点はは右のののの离れ离れ离れたた位置ににありありますます。。。これらの点点点点,,,,,,,,,分散分散分散分散分散
従来型の共分散行列とロバスト共分散行列を比較します。
c = cov(u)
c =2×20。5523 0.0000 0.0000 0.0913
rc = robustcov(u)
rc =2×20。1117 0.0364 0.0364 0.1695
标本データ存在外れ値が结果を与えるので,型ののののの分散分散分散行列とロバストロバスト
Rubustcov
が外れ値と見なすデータ点を特定してプロットします。
[sig,mu,mah,utliers] = robustcov(u);图GSCATTER(u(::,1),u(::,2),离群值,'br',,,,'ox')legend({“不是离群值”,,,,'Outliers'})
Rubustcov
は,プロットの右側にあるデータ点を潜在的な外れ値として識別し、ロバスト共分散行列を計算するときはこの結果に基づいてこれらのデータ点を扱います。
入力引数
X
-標本データ
数値の行列
ロバスト共分散行列の推定に使用する標本データ。数値の行列を指定します。X
は,各行が観測値に、各列が変数に対応する n 行 p 列の行列です。
Rubustcov
は,ロバスト共分散行列を計算するときに、予測子の値が欠損している行を削除します。
データ型:single
|double
名前と値引数
例:“方法”,'ogk','numogkiterations',1
gnanadesikan-kettenring法法法法法を指定,直交のの反复回数回数をををををににに
オプションの名称,价值
引数の区ペアを指定し。。Name
は引数名で、Value
は対応する値です。Name
は引用符で囲まなければなりません。Name1,Value1,...,NameN,ValueN
のように、複数の名前と値のペアの引数を、任意の順番で指定できます。
方法
-ロバスト推定器
'fmcd'
((既定値) |'ogk'
|'olivehawkins'
ロバスト推定器次いずれか指定します。
名前 | 値 |
---|---|
'fmcd' |
高速 MCD (最小共分散行列式)法 |
'ogk' |
直交gnanadesikan-kettenring(OGK)推定 |
'olivehawkins' |
集中アルゴリズム手法 (高速で高い整合性をもつ、外れ値に対してロバストな一連の方式) |
例:“方法”,'ogk'
离群值
-外れ値の比率
0。5((既定値) |范囲[0,0.5]のの値
外れ値の。“异差异”
[0,0.5]ののから构成コンマ区のペア指定指定し。。。。。。。ます行列行列行列式をを最小最小化化するする対象1 - 偏距によって指定されます。
このアルゴリズムでは、サイズがh =天花板(n + p + 1) / 2)である副標本が選択されます。ここで、n は観測値の個数、p は次元数です。离群值
は,分解が最大になる値であり、共分散行列式を最小化する対象となるサブセット h のサイズを調節します。その後、サブセットごとにほぼ((1– OutlierFraction) × n個の観測値になるように h が選択されます。
例:“异差异”,,,,0。25
データ型:single
|double
NumTrials
-試行回数
正の整数値
試行回数。'NumTrials'
と正の整数値から構成されるコンマ区切りのペアとして指定します。
'方法'
が'fmcd'
である场合,NumTrials
はアルゴリズムで開始点として標本データから無作為抽出される、サイズがp + 1の副个数。。ははデータ次元数です。この,,,NumTrials
の既定値は 500 です。
'方法'
が'olivehawkins'
の場合、NumTrials
は使用する試験近似、つまりアトラクターの数です。この場合、NumTrials
2です値です。このは,决定的なの场合のみ役立ち役立ち。。
例:'NumTrials',300
データ型:single
|double
偏见
-小規模標本補正係数を適用するためのフラグ
1
((既定値) |0
小规模补正を适用ためのフラグ。'偏见'
と1
または0
から构成れる区のペアとしてします。値1
は,规模な标本ににRubustcov
が共分散推定のバイアスを補正することを示します。値0
は,この補正をRubustcov
が适用ないことを。。
例:'偏见',,,,0
データ型:逻辑
numogkiterations
-直交化の反復回数
2((既定値) |正の整数値
直交化の回数。“ numogkiterations'
正のからさされる区区のペアとしてとしてますます。。。。通常通常,,,,,,このこのこのははははははははははははははははははははははににににににににしますます。。
例:'NumIter',1
データ型:single
|double
UnivariateEstimator
-一変量ロバスト推定を計算する関数
'tauscale'
((既定値) |'qn'
一変ロバスト推定计算する关数。'UnivariateEstimator'
と次のいずれかから構成されるコンマ区切りのペアとして指定します。
名前 | 値 |
---|---|
'tauscale' |
Yohai Zamarの“ Tauスケール”推定推定し。これ,切り舍てられた标准偏差とですですです |
'qn' |
crouxおよびrousseeuw qn qnスケールスケール使用し。。。 |
例:'UnivariateEstimator','qn'
重量级运动
-再重み付けの方式
'rfch'
((既定値) |'rmvn'
効率性ステップにおける再重み付けの方式。“重量级索”
と次のいずれかから構成されるコンマ区切りのペアとして指定します。
名前 | 値 |
---|---|
'rfch' |
2つの再重み付けステップを使用します。これは、効率を向上させるための再重み付けの標準的な方式です。 |
'rmvn' |
多変量正規を再重み付けします。クリーンなデータが多変量正規分布の場合、さまざまな外れ値構成の下で真の共分散行列を推定する場合に役立つ、2 つの再重み付けステップを使用します。 |
例:“重量级索”,,,,'rmvn'
NumConcentrationSteps
-集中ステップの数
10((既定値) |正の整数値
集中ステップの。'NumConcentrationSteps'
と正の整数値から構成されるコンマ区切りのペアとして指定します。
例:“ numcencentrationSteps”,8
データ型:single
|double
StartMethod
-各アトラクターへの開始方法
'古典'
((既定値) |'medianball'
|“元素”
|关数ハンドル|cell 配列
各アトラクターの开始方法。'开始'
と次のいずれかから構成されるコンマ区切りのペアとして指定します。
名前 | 値 |
---|---|
'古典' |
従来型の推定器を開始点として使用します。これは、単独で使用した場合は DGK 推定器として知られる DGK アトラクターです。 |
'medianball' |
メディアン(MB)をを点使用し。メディアンはは((med(x),eye(p)) です。したがって、MB の開始点を計算するため、標本の中央値からユークリッド距離で最も遠いデータが 50% のケースでトリミングされます。これは、単独で使用した場合は MB 推定器として知られる MB アトラクターです。 |
“元素” |
アトラクターは集中によって生成され、その開始点は無作為に選択された基本の開始点です。無作為に選択された p + 1 個のケースの "基本セット" に従来型の推定器が適用されます。この "基本" アトラクターは、計算効率は高くなりますが、整合性が低く分解がゼロであるという、理論的な欠点があります。 |
既定の設定では、アトラクターは次のように選択されます。アトラクターのいずれかが'medianball'
である场合,中位数(x)
から位置距离距离データ半数大きい大きい大きい大きい大きい大きい大きい大きい大きい大きいの外部外部にあるあるあるあるあるあるあるあるある)
初期位置の値を计算するためのつのつの出力を返す关数の关数ハンドルハンドルを指定指定することことも
前の表のオプションと関数ハンドルの任意の組み合わせが格納されている cell 配列を指定することもできます。cell 配列の長さと等しい数のアトラクターが使用されます。この方法を使用すると、アルゴリズムをより細かく調節でき、アトラクターおよび開始点の数を自由に指定できます。
例:'StartMethod','medianball'
出力引数
信号
-ロバスト共分散行列の推定値
数値行列
ロバスト共分散行列の推定値。p 行 p 列の数値行列として返されます。p は標本データに含まれている予測子の数です。
mu
-ロバスト平均の推定値
数値の配列
ロバスト平均の推定値。1 行 p 列の数値配列として返されます。p は標本データに含まれている予測子の数です。
outliers
-外れ値のインデックス
論理値の配列
標本データX
で外れ记录れた観测値インデックスインデックス。行行行行列列论理値配列配列として返さ返さ値0
は,が外れではないことをます値値値1
は,観測値が外れ値であることを示します。
Rubustcov
は欠损が含まている行をX
から除外するので、outliers
の行数がX
の行数少なくなるがあります。
s
- 推定情报格纳さ构造体体
構造体
推定情报格纳构造体。构造として返されます。
详细
マハラノビス距离
マハラノビス距离は,標本点と分布の間の尺度です。
ベクトル x から平均 μ および共分散 Σ をもつ分布までのマハラノビス距離は次のようになります。
このでででx xでがから程度离れいるいるかを表し。。。。
Rubustcov
は,X
の観測値から平均mu
および共分散信号
をもつ分布までのロバストなマハラノビス距離 (妈
)を返します。
アルゴリズム
最小共分散行列式推定
“最小共分散”((MCD) は、多変量の位置および散乱の最も高速な推定器であり、整合性が高くロバストです。ただし、可能な標本データのサブセットをすべて評価すると計算時間が非常に長くなるので、MCD を正確に評価することは困難です。Rubustcov
は高速 MCD 法を使用して MCD を実装します[3]。
高速 MCD 法では、行列式が最小である従来型の共分散行列をもつ n 個の観測値から h 個の観測値を選択します (n/2 < h ≤ n)。mcdの平均,选択した个の値平均平均。
mcdの共分散,たたたのののの分散分散分散に,多変量変量正规正规分布で整合性性を得る得るためための一致一致系数系数ととと,,标本サイズサイズサイズののバイアスバイアスバイアス。
直交 Gnanadesikan-Kettenring 推定
“直交gnanadesikan-kettenring”((OGK) 推定は、Gnanadesikan-Kettenring (GK) 推定器 (非正定値である可能性があるペアワイズのロバストな散乱行列) から始まる、散乱の正定値推定です[[1]。この推定では,固有値(負の可能性があります)をロバストな分散に置き換えて,直交反復と呼ばれる主成分の形式をペアワイズの散乱行列に対して使用します。この手順は結果を改善するために繰り返すことができ、通常は 2 ~ 3 回の反復後に収束します。
橄榄霍金斯推定
Olive-Hawkins 推定では、Olive および Hawkins が提案した "集中アルゴリズム" 手法を使用します。これは、高速で高い整合性をもつ、外れ値に対して非常にロバストな一連の方式です。この推定は、4 次のモーメントをもつ楕円輪郭分布の共分散の、ロバストな root-n-consistent 推定量です。この推定は、まず試験推定 (開始点) を生成し、それぞれの試験近似からの集中手法を使用したアトラクターの取得によって得られます。
(t0j,,,,C0j)が開始点であるとすると、次回の反復における従来型の平均と共分散の推定量は、前回の反復からの推定に基づくマハラノビス距離が最小である約n / 2個のケース (n は観測値の個数) から計算されます。この反復は固定回数 (k 回) のステップについて続けることができ、最終ステップ (k 回目) の推定がアトラクターになります。最終的な推定は、与えられた基準に基づいて選択されます。
既定の設定では、2 つのアトラクターが使用されます。1 番目のアトラクターは Devlin-Gnanadesikan-Kettering (DGK) アトラクターです。使用される開始点は従来型の推定器です。2 番目のアトラクターはメディアン ボール (MB) アトラクターです。使用される開始点は((中位数(x),,,,eye(p))
、つまりユークリッド距離で中位数(x)
。近いデータですですですアトラクターアトラクター位置推定ががのの外部外部ににあるあるある场合场合ははは场合场合场合アトラクターアトラクターアトラクターアトラクターが使用さされ,それ以外以外ののはな平均选択したのの平均です。。推定推定な的的的的分散分散分散分散分散は,,选択したたアトラクターののの推定推定推定推定推定分散分散分散分散分散に対し,正规正规。
参照
[1] Maronna,R。和Zamar,R.H。Technometrics,第1卷。50,2002。
[[2] Pison, S. Van Aelst and G. Willems. “Small Sample Corrections for LTS and MCD.” Metrika, Vol. 55, 2002.
[3]Rousseeuw, P.J. and Van Driessen, K. “A fast algorithm for the minimum covariance determinant estimator.” Technometrics, Vol. 41, 1999.
[[4] Olive, D.J. “A resistant estimator of multivariate location and dispersion.” Computational Statistics and Data Analysis, Vol. 46, pp. 99–102, 2004.
バージョン履歴
MATLAB コマンド
次の MATLAB コマンドに対応するリンクがクリックされました。
コマンドを MATLAB コマンド ウィンドウに入力して実行してください。Web ブラウザーは MATLAB コマンドをサポートしていません。
选择一个网站
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select:。
You can also select a web site from the following list:
How to Get Best Site Performance
选择中国网站(中文或英语)以获得最佳场地性能。其他Mathworks乡村网站未针对您所在的访问进行优化。
美洲
- América Latina((Español)
- 加拿大((English)
- 美国((English)
Europe
- Netherlands((English)
- Norway((English)
- Österreich((德意志)
- 葡萄牙((English)
- Sweden((English)
- 瑞士
- United Kingdom((English)