Main Content

このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。

Rubustcov

ロバスト多変量共分散および平均の推定

说明

信号= RubustCov(Xは,Xに格納されている多変量データのロバスト共分散推定値信号を返します。

[[信号,,,,mu] = robustcov(Xは,ロバスト最小共分散行列式 (MCD) の平均muの推定値も返します。

[[信号,,,,mu,,,,] = robustcov(Xは,平均および共分散のロバスト推定値を使用して観測値のマハラノビス距離として計算したロバスト距離も返します。

[[信号,,,,mu,,,,,,,,outliers] = robustcov(Xは,内外れ値として记录ている観测値インデックスインデックスoutliersも返します。

[[信号,,,,mu,,,,,,,,outliers,,,,s] = robustcov(Xは,推定に関する情報が格納されている構造体sも返します。

[[___] = robustcov(X,,,,名称,价值は,1つ以上の名称,价值引数でれ追加オプションオプション使用して,のに示さ示されてててているいる引数ののかかをを返し返し。。たとえば,使用使用するロバストロバスト推定ます。

すべて折りたたむ

ガウス型コピュラを使用して、二変量分布からランダムなデータ点を生成します。

rngdefaultrho = [1,0.05;0.05,1]; u = copularnd('Gaussian',Rho,50);

5つたたつ観测値外れ値に変更し。。

noise = randperm(50,5); u(noise,1) = u(noise,1)*5;

使用可能な 3 つの方式を使用して、ロバスト共分散行列を計算します。つまり、高速 MCD、直交 Gnanadesikan-Kettenring (OGK) および Olive-Hawkins です。

[SFMCD,MFMCD,DFMCD,OUTFMCD] = RubustCov(U);[SOGK,MOGK,DOGK,OUTOGK] = RubustCov(U,'方法',,,,'ogk');[[Soh, Moh, doh, Outoh] = robustcov(u,'方法',,,,'olivehawkins');

マハラノビス尺度し,标本データ従来型距离値を计算计算ます。

d_classical = pdist2(u, mean(u),'Mahal');p = size(u,2); chi2quantile = sqrt(chi2inv(0.975,p));

各ロバスト共分散計算法について DD プロットを作成します。

figure subplot(2,2,1) plot(d_classical, dfmcd,'o')线([Chi2Quantile,Chi2Quantile],[0,30],,'color',,,,'r')line([0, 6], [chi2quantile, chi2quantile],'color',,,,'r')holdon绘图(d_classical(OUTFMCD),DFMCD(OUTFMCD),'r+')Xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD Plot, FMCD method')hold离开子图(2,2,2)图(D_Classical,Dogk,'o')线([Chi2Quantile,Chi2Quantile],[0,30],,'color',,,,'r')line([0, 6], [chi2quantile, chi2quantile],'color',,,,'r')holdon情节(D_Classical(Outogk),Dogk(Outogk),'r+')Xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD图,OGK方法')hold离开subplot(2,2,3) plot(d_classical, doh,'o')线([Chi2Quantile,Chi2Quantile],[0,30],,'color',,,,'r')line([0, 6], [chi2quantile, chi2quantile],'color',,,,'r')holdon情节(D_Classical(OutOH),DOH(OUTOH),'r+')Xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD情节,橄榄鹰队方法')hold离开

图包含3个轴对象。轴对象1带有标题DD图,FMCD方法包含4个类型行的对象。轴对象2带有标题DD图,OGK方法包含4个类型行的对象。轴对象3带有标题DD图,Olive-Hawkins方法包含4个类型行的对象。

ddプロットで原点通过する直线データ点集まる集まるありますます。。このこのこの直线直线から离れたた位置にににあるあるある点点は,,一般一般一般にににににであるとである考えはRubustcovで外れとれた点を示します。

この例で,Rubustcovを使用标本が多変量正规またはの楕轮郭(EC)分布分布であるかを评価评価する示し示します。。。

多変量正規分布から、ランダムな標本データを生成します。ロバスト共分散推定用 (Olive-Hawkins 法を使用) と従来型の共分散推定用のマハラノビス距離を計算します。

rng('default')X1=mvnrnd(zeros(1,3),eye(3),200); [~, ~, d1] = robustcov(x1,'方法',,,,'olivehawkins');d_classical1 = pdist2(x1,平均(x1),'妈alanobis');

楕円輪郭 (EC) 分布から、ランダムな標本データを生成します。ロバスト共分散推定用 (Olive-Hawkins 法を使用) と従来型の共分散推定用のマハラノビス距離を計算します。

mu1 = [0 0 0]; sig1 = eye(3); mu2 = [0 0 0]; sig2 = 25*eye(3); x2 = [mvnrnd(mu1,sig1,120);mvnrnd(mu2,sig2,80)]; [~, ~, d2] = robustcov(x2,'方法',,,,'olivehawkins');d_classical2 = pdist2(x2, mean(x2),'妈alanobis');

多変量対数正規分布から、ランダムな標本データを生成します。これは、多変量正規分布でも楕円輪郭分布でもありません。ロバスト共分散推定用 (Olive-Hawkins 法を使用) と従来型の共分散推定用のマハラノビス距離を計算します。

X3 = exp(x1); [~, ~, d3] = robustcov(x3,'方法',,,,'olivehawkins');d_classical3 = pdist2(x3,平均(x3),,,'妈alanobis');

比較のため、3 組の標本データのそれぞれについて D-D プロットを作成します。

figure subplot(2,2,1) plot(d_classical1,d1,'o')line([0 4.5], [0, 4.5]) xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD Plot, Multivariate Normal')subplot(2,2,2) plot(d_classical2, d2,'o')线([0 18],[0,18])xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD Plot, Elliptically-Contoured')subplot(2,2,3) plot(d_classical3, d3,'o')线([0 18],[0,18])xlabel('Mahalanobis距离')ylabel('Robust Distance')title('DD Plot, 200 Lognormal cases'

图包含3个轴对象。轴对象1带有标题DD图,多元正常包含2个类型线的对象。轴对象2带有标题DD图,椭圆形的包含2个类型线的对象。轴对象3带有标题DD图,200个log normalal case包含2个类型行的对象。

多変量正規分布のデータ (左上) では、プロットされた点は原点から伸びる 45°の直線に従っています。楕円輪郭分布のデータ (右上) では、プロットされた点は直線に従っていますが、角度は 45°ではありません。対数正規分布 (左下) では、プロットされた点は直線に従っていません。

ほとんどの点がプロットの左下にあるので,対数正規分布のパターンを特定することは困難です。重み付きのDD プロットを使用して、この隅を拡大し、大きいロバスト距離が存在すると明らかではなくなる特徴量を明らかにします。

d3_weighted = d3(d3 < sqrt(chi2inv(0.975,3))); d_classical_weighted = d_classical3(d3 < sqrt(chi2inv(0.975,3)));

4 番目のサブプロットを図に追加して、対数正規分布データに重みを付けた結果を示します。

子图(2,2,4)图(d_classical_weighted,d3_weighted,'o')line([0 3], [0, 3]) xlabel('Mahalanobis距离')ylabel('Robust Distance')title(“加权DD图,200个对数正常情况”

图包含4个轴对象。轴对象1带有标题DD图,多元正常包含2个类型线的对象。轴对象2带有标题DD图,椭圆形的包含2个类型线的对象。轴对象3带有标题DD图,200个log normalal case包含2个类型行的对象。轴对象4带有标题加权DD图,200个logNormalasal Caste包含2个类型行的对象。

このプロットのスケールは、対数正規データが元の DD プロットの拡大表示になっていることを示しています。この表示は、プロットにパターンがないことをより明確に示しています。したがって、データが多変量正規分布にも楕円輪郭分布にもなっていないことがわかります。

ガウス型コピュラを使用して、二変量分布からランダムなデータ点を生成します。

rngdefaultrho = [1,0.05;0.05,1]; u = copularnd('Gaussian',Rho,50);

5つたたつ観测値外れ値に変更し。。

noise = randperm(50,5); u(noise,1) = u(noise,1)*5;

散布図を使用して二変量データを可視化します。

图散射(u(::,1),u(::,2))

图包含一个轴对象。轴对象包含类型散点的对象。

ほとんどのがのにありますしかし,,の点点はは右のののの离れ离れ离れたた位置ににありありますます。。。これらの点点点点,,,,,,,,,分散分散分散分散分散

従来型の共分散行列とロバスト共分散行列を比較します。

c = cov(u)
c =2×20。5523 0.0000 0.0000 0.0913
rc = robustcov(u)
rc =2×20。1117 0.0364 0.0364 0.1695

标本データ存在外れ値が结果を与えるので,型ののののの分散分散分散行列とロバストロバスト

Rubustcovが外れ値と見なすデータ点を特定してプロットします。

[sig,mu,mah,utliers] = robustcov(u);图GSCATTER(u(::,1),u(::,2),离群值,'br',,,,'ox')legend({“不是离群值”,,,,'Outliers'})

图包含一个轴对象。The axes object contains 2 objects of type line. These objects represent Not outliers, Outliers.

Rubustcovは,プロットの右側にあるデータ点を潜在的な外れ値として識別し、ロバスト共分散行列を計算するときはこの結果に基づいてこれらのデータ点を扱います。

入力引数

すべて折りたたむ

ロバスト共分散行列の推定に使用する標本データ。数値の行列を指定します。Xは,各行が観測値に、各列が変数に対応する n 行 p 列の行列です。

Rubustcovは,ロバスト共分散行列を計算するときに、予測子の値が欠損している行を削除します。

データ型:single|double

名前と値引数

例:“方法”,'ogk','numogkiterations',1gnanadesikan-kettenring法法法法法を指定,直交のの反复回数回数をををををににに

オプションの名称,价值引数の区ペアを指定し。。Nameは引数名で、Valueは対応する値です。Nameは引用符で囲まなければなりません。Name1,Value1,...,NameN,ValueNのように、複数の名前と値のペアの引数を、任意の順番で指定できます。

すべての推定器

すべて折りたたむ

ロバスト推定器次いずれか指定します。

名前
'fmcd' 高速 MCD (最小共分散行列式)
'ogk' 直交gnanadesikan-kettenring(OGK)推定
'olivehawkins' 集中アルゴリズム手法 (高速で高い整合性をもつ、外れ値に対してロバストな一連の方式)

例:“方法”,'ogk'

FMCD 法および OliveHawkins 法のみ

すべて折りたたむ

外れ値の。“异差异”[0,0.5]ののから构成コンマ区のペア指定指定し。。。。。。。ます行列行列行列式をを最小最小化化するする対象1 - 偏距によって指定されます。

このアルゴリズムでは、サイズがh =天花板(n + p + 1) / 2)である副標本が選択されます。ここで、n は観測値の個数、p は次元数です。离群值は,分解が最大になる値であり、共分散行列式を最小化する対象となるサブセット h のサイズを調節します。その後、サブセットごとにほぼ((1– OutlierFraction) × n個の観測値になるように h が選択されます。

例:“异差异”,,,,0。25

データ型:single|double

試行回数。'NumTrials'と正の整数値から構成されるコンマ区切りのペアとして指定します。

'方法''fmcd'である场合,NumTrialsはアルゴリズムで開始点として標本データから無作為抽出される、サイズがp + 1の副个数。。ははデータ次元数です。この,,,NumTrialsの既定値は 500 です。

'方法''olivehawkins'の場合、NumTrialsは使用する試験近似、つまりアトラクターの数です。この場合、NumTrials2です値です。このは,决定的なの场合のみ役立ち役立ち。。

例:'NumTrials',300

データ型:single|double

FMCD法のみ

すべて折りたたむ

小规模补正を适用ためのフラグ。'偏见'1または0から构成れる区のペアとしてします。値1は,规模な标本ににRubustcovが共分散推定のバイアスを補正することを示します。値0は,この補正をRubustcovが适用ないことを。。

例:'偏见',,,,0

データ型:逻辑

OGK 法のみ

すべて折りたたむ

直交化の回数。“ numogkiterations'正のからさされる区区のペアとしてとしてますます。。。。通常通常,,,,,,このこのこのははははははははははははははははははははははににににににににしますます。。

例:'NumIter',1

データ型:single|double

一変ロバスト推定计算する关数。'UnivariateEstimator'と次のいずれかから構成されるコンマ区切りのペアとして指定します。

名前
'tauscale' Yohai Zamarの“ Tauスケール”推定推定し。これ,切り舍てられた标准偏差とですですです
'qn' crouxおよびrousseeuw qn qnスケールスケール使用し。。。

例:'UnivariateEstimator','qn'

Olivehawkins法のみ

すべて折りたたむ

効率性ステップにおける再重み付けの方式。“重量级索”と次のいずれかから構成されるコンマ区切りのペアとして指定します。

名前
'rfch' 2つの再重み付けステップを使用します。これは、効率を向上させるための再重み付けの標準的な方式です。
'rmvn' 多変量正規を再重み付けします。クリーンなデータが多変量正規分布の場合、さまざまな外れ値構成の下で真の共分散行列を推定する場合に役立つ、2 つの再重み付けステップを使用します。

例:“重量级索”,,,,'rmvn'

集中ステップの。'NumConcentrationSteps'と正の整数値から構成されるコンマ区切りのペアとして指定します。

例:“ numcencentrationSteps”,8

データ型:single|double

各アトラクターの开始方法。'开始'と次のいずれかから構成されるコンマ区切りのペアとして指定します。

名前
'古典' 従来型の推定器を開始点として使用します。これは、単独で使用した場合は DGK 推定器として知られる DGK アトラクターです。
'medianball' メディアン(MB)をを点使用し。メディアンはは((med(x),eye(p))です。したがって、MB の開始点を計算するため、標本の中央値からユークリッド距離で最も遠いデータが 50% のケースでトリミングされます。これは、単独で使用した場合は MB 推定器として知られる MB アトラクターです。
“元素” アトラクターは集中によって生成され、その開始点は無作為に選択された基本の開始点です。無作為に選択された p + 1 個のケースの "基本セット" に従来型の推定器が適用されます。この "基本" アトラクターは、計算効率は高くなりますが、整合性が低く分解がゼロであるという、理論的な欠点があります。

既定の設定では、アトラクターは次のように選択されます。アトラクターのいずれかが'medianball'である场合,中位数(x)から位置距离距离データ半数大きい大きい大きい大きい大きい大きい大きい大きい大きい大きいの外部外部にあるあるあるあるあるあるあるあるある)

初期位置の値を计算するためのつのつの出力を返す关数の关数ハンドルハンドルを指定指定することことも

前の表のオプションと関数ハンドルの任意の組み合わせが格納されている cell 配列を指定することもできます。cell 配列の長さと等しい数のアトラクターが使用されます。この方法を使用すると、アルゴリズムをより細かく調節でき、アトラクターおよび開始点の数を自由に指定できます。

例:'StartMethod','medianball'

出力引数

すべて折りたたむ

ロバスト共分散行列の推定値。p 行 p 列の数値行列として返されます。p は標本データに含まれている予測子の数です。

ロバスト平均の推定値。1 行 p 列の数値配列として返されます。p は標本データに含まれている予測子の数です。

ロバストなマハラノビス距离。1行 n 列の数値配列として返されます。Rubustcovは欠损が含まている行をXから除外するので、の行数がXの行数少なくなるがあります。

標本データXで外れ记录れた観测値インデックスインデックス。行行行行列列论理値配列配列として返さ返さ値0は,が外れではないことをます値値値1は,観測値が外れ値であることを示します。

Rubustcovは欠损が含まている行をXから除外するので、outliersの行数がXの行数少なくなるがあります。

推定情报格纳构造体。构造として返されます。

详细

すべて折りたたむ

マハラノビス距离

マハラノビス距离は,標本点と分布の間の尺度です。

ベクトル x から平均 μ および共分散 Σ をもつ分布までのマハラノビス距離は次のようになります。

d = (( X μ 1 (( X μ '

このでででx xでがから程度离れいるいるかを表し。。。。

Rubustcovは,Xの観測値から平均muおよび共分散信号をもつ分布までのロバストなマハラノビス距離 ()を返します。

アルゴリズム

すべて折りたたむ

最小共分散行列式推定

“最小共分散”((MCD) は、多変量の位置および散乱の最も高速な推定器であり、整合性が高くロバストです。ただし、可能な標本データのサブセットをすべて評価すると計算時間が非常に長くなるので、MCD を正確に評価することは困難です。Rubustcovは高速 MCD 法を使用して MCD を実装します[3]

高速 MCD 法では、行列式が最小である従来型の共分散行列をもつ n 個の観測値から h 個の観測値を選択します (n/2 < h ≤ n)。mcdの平均,选択した个の値平均平均。

mcdの共分散,たたたのののの分散分散分散に,多変量変量正规正规分布で整合性性を得る得るためための一致一致系数系数ととと,,标本サイズサイズサイズののバイアスバイアスバイアス。

直交 Gnanadesikan-Kettenring 推定

“直交gnanadesikan-kettenring”((OGK) 推定は、Gnanadesikan-Kettenring (GK) 推定器 (非正定値である可能性があるペアワイズのロバストな散乱行列) から始まる、散乱の正定値推定です[[1]。この推定では,固有値(負の可能性があります)をロバストな分散に置き換えて,直交反復と呼ばれる主成分の形式をペアワイズの散乱行列に対して使用します。この手順は結果を改善するために繰り返すことができ、通常は 2 ~ 3 回の反復後に収束します。

橄榄霍金斯推定

Olive-Hawkins 推定では、Olive および Hawkins が提案した "集中アルゴリズム" 手法を使用します。これは、高速で高い整合性をもつ、外れ値に対して非常にロバストな一連の方式です。この推定は、4 次のモーメントをもつ楕円輪郭分布の共分散の、ロバストな root-n-consistent 推定量です。この推定は、まず試験推定 (開始点) を生成し、それぞれの試験近似からの集中手法を使用したアトラクターの取得によって得られます。

(t0j,,,,C0jが開始点であるとすると、次回の反復における従来型の平均と共分散の推定量は、前回の反復からの推定に基づくマハラノビス距離が最小である約n / 2個のケース (n は観測値の個数) から計算されます。この反復は固定回数 (k 回) のステップについて続けることができ、最終ステップ (k 回目) の推定がアトラクターになります。最終的な推定は、与えられた基準に基づいて選択されます。

既定の設定では、2 つのアトラクターが使用されます。1 番目のアトラクターは Devlin-Gnanadesikan-Kettering (DGK) アトラクターです。使用される開始点は従来型の推定器です。2 番目のアトラクターはメディアン ボール (MB) アトラクターです。使用される開始点は((中位数(x),,,,eye(p))、つまりユークリッド距離で中位数(x)。近いデータですですですアトラクターアトラクター位置推定ががのの外部外部ににあるあるある场合场合ははは场合场合场合アトラクターアトラクターアトラクターアトラクターが使用さされ,それ以外以外ののはな平均选択したのの平均です。。推定推定な的的的的分散分散分散分散分散は,,选択したたアトラクターののの推定推定推定推定推定分散分散分散分散分散に対し,正规正规。

参照

[1] Maronna,R。和Zamar,R.H。Technometrics,第1卷。50,2002。

[[2] Pison, S. Van Aelst and G. Willems. “Small Sample Corrections for LTS and MCD.” Metrika, Vol. 55, 2002.

[3]Rousseeuw, P.J. and Van Driessen, K. “A fast algorithm for the minimum covariance determinant estimator.” Technometrics, Vol. 41, 1999.

[[4] Olive, D.J. “A resistant estimator of multivariate location and dispersion.” Computational Statistics and Data Analysis, Vol. 46, pp. 99–102, 2004.

バージョン履歴

R2016a で導入