主要内容

罗布斯科夫

强大的多变量协方差和平均估计

描述

例子

团体= robustcov (x返回强大的协方差估计团体的多元数据x

团体] = robustcov(x也返回鲁棒最小协方差行列式(MCD)均值的估计,

团体马赫] = robustcov(x也返回了强健的距离马赫,利用均值和协方差的稳健估计作为观测值的马氏距离计算。

团体马赫离群值] = robustcov(x也返回作为样本数据中的离群值保留的观察值的指数,离群值

例子

团体马赫离群值年代] = robustcov(x也返回一个结构年代它包含关于估计的信息。

例子

___] = robustcov(x名称,值返回先前语法中显示的任何参数,使用一个或多个指定的其他选项名称,值对参数。例如,您可以指定使用哪个稳健估计器或对吸引子使用的起始方法。

例子

崩溃

使用高斯copula从二元分布生成随机数据点。

RNG.默认ρ= [1,0.05,0.05,1];u = copularnd (“高斯”,rho,50);

修改5个随机选取的观察值为异常值。

噪音= randperm (50, 5);u(噪音,1)=(噪音,1)* 5;

使用三种可用的方法计算鲁棒协方差矩阵:Fast-MCD,正交Gnanadesikan-Kettenring (OGK),和Olive-Hawkins。

[SFMCD,MFMCD,DFMCD,OutFMCD] = RobustCov(U);[Sogk,Mogk,Dogk,Outogk] = RobustCov(U,'方法'“ogk”);[soh,moh,doh,outoh] = robustcov(你,'方法''OliveHawkins');

使用马氏测量方法计算样本数据的经典距离值。

D_classical = pdist2(u, mean(u)),“泰姬陵”);p =尺寸(U,2);chi2quantile = sqrt(chi2inv(0.975,p));

为每个稳健的协方差计算方法创建DD图。

图subplot(2,2,1) plot(d_classical, dfmcd,“o”) line([chi2quantile, chi2quantile], [0,30],'颜色'“r”线([0,6],[Chi2quantile,Chi2quantile],'颜色'“r”抱紧情节(d_classical (Outfmcd) dfmcd (Outfmcd),' r + ')Xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题('DD Plot,FMCD方法'抱紧关闭子图(2,2,2)绘图(d_classical,dogk,“o”) line([chi2quantile, chi2quantile], [0,30],'颜色'“r”线([0,6],[Chi2quantile,Chi2quantile],'颜色'“r”抱紧绘图(D_Classical(Outogk),Dogk(Outogk),' r + ')Xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题(“DD图,OGK方法”抱紧关闭次要情节(2,2,3)情节(d_classical,哎,“o”) line([chi2quantile, chi2quantile], [0,30],'颜色'“r”线([0,6],[Chi2quantile,Chi2quantile],'颜色'“r”抱紧情节(d_classical (Outoh),哎(Outoh),' r + ')Xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题('DD Plot,Olive-Hawkins方法'抱紧关闭

图中包含3个轴。轴1带有标题DD Plot, FMCD方法包含4个类型为line的对象。标题为DD Plot的坐标轴2,OGK方法包含4个类型为line的对象。轴3带有标题DD Plot, Olive-Hawkins方法包含4个类型为line的对象。

在DD图中,数据点倾向于以通过原点的直线簇簇。远离这一行的点通常被认为是异常值。在每个先前的图中,红色'+'符号表示数据点罗布斯科夫被认为是局外人。

这个例子展示了如何使用罗布斯科夫评估多元正态分布或其他椭圆轮廓分布的样本数据。

从多变量正态分布生成随机样本数据。计算强大的协方差估计的Mahalanobis距离(使用O​​live-Hawkins方法)和经典协方差估计。

rng (“默认”) x1 = mvnrnd(zeros(1,3),eye(3),200);[~, ~, d1] = robustcov(x1,'方法''OliveHawkins');d_classical1 = pdist2 (x1,意味着(x1)、“mahalanobis”);

从椭圆形(EC)分布生成随机样本数据。计算强大的协方差估计的Mahalanobis距离(使用O​​live-Hawkins方法)和经典协方差估计。

mu1 = [0 0 0];sig1 =眼睛(3);mu2 = [0 0 0];sig2 = 25 *眼睛(3);X2 = [MVNRND(MU1,SIG1,120); MVNRND(MU2,SIG2,80)];[〜,〜,d2] = robustcov(x2,'方法''OliveHawkins');D_classical2 = pdist2(x2, mean(x2)),“mahalanobis”);

从多元对数正态分布生成随机样本数据,既不是多元正态分布,也不是椭圆曲线。计算强大的协方差估计的Mahalanobis距离(使用O​​live-Hawkins方法)和经典协方差估计。

x3 = exp(x1);[〜,〜,d3] = robustcov(x3,'方法''OliveHawkins');D_classical3 = pdist2(x3, mean(x3)),“mahalanobis”);

为三组样本数据中的每一个创建D-D图以比较。

图形子图(2,2,1)绘图(d_classical1,d1,“o”) line([0 4.5], [0, 4.5]) xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题('dd plot,多元正常')子图(2,2,2)绘图(d_classical2,d2,“o”)行([0 18],[0,18])xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题(“DD情节,Elliptically-Contoured”)子图(2,2,3)绘图(d_classical3,d3,“o”)行([0 18],[0,18])xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题(“DD图,200个对数正常案例”

图中包含3个轴。标题为DD Plot的轴1,多元法线包含2个类型为line的对象。标题为DD Plot的坐标轴2,椭圆轮廓包含2个类型为line的对象。标题为DD Plot的轴3,200对数正常情况包含2个类型为line的对象。

对于具有多变量正态分布的数据(如左上角所示),绘制的点遵循从原点延伸的直线,45度线。对于具有椭圆形状分布的数据(如右上角所示),绘制的点遵循直线,但不与原点处的45度角。对于Lognormal分布(如左下角所示),绘图的点不遵循直线。

在对数正态分布图中很难识别任何模式,因为大多数点都在图的左下角。使用加权DD图来放大这个角,并揭示当存在较大的鲁棒距离时被遮挡的特征。

D3_weighted = D3(D3 
                   

在图中添加第四个子图,以显示对数正态分布数据的加权过程的结果。

子图(2,2,4)绘图(d_classical_uighted,d3_wuitioned,“o”)线([0 3],[0,3])Xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题('加权DD Plot,200个Lognormal案例'

图中包含4个轴。标题为DD Plot的轴1,多元法线包含2个类型为line的对象。标题为DD Plot的坐标轴2,椭圆轮廓包含2个类型为line的对象。标题为DD Plot的轴3,200对数正常情况包含2个类型为line的对象。轴4带有标题加权DD图,200对数正态情况包含2个类型为line的对象。

这个图上的刻度表明它代表了对数正态数据的原始DD图的放大视图。这个视图更清楚地显示了图缺乏模式,这表明数据既不是多元正态曲线也不是椭圆曲线。

使用高斯copula从二元分布生成随机数据点。

RNG.默认ρ= [1,0.05,0.05,1];u = copularnd (“高斯”,rho,50);

修改5个随机选取的观察值为异常值。

噪音= randperm (50, 5);u(噪音,1)=(噪音,1)* 5;

使用散点图可视化双变量数据。

图散射(u (: 1), (2):,)

图中包含一个坐标轴。轴包含类型散射的对象。

大多数数据点都出现在绘图的左侧。但是,一些数据点出现在右侧。这些点是可能影响协方差矩阵计算的可能异常值。

比较古典和强大的协方差矩阵。

c = cov(u)
c =2×20.5523 0.0000 0.0000 0.0913
RC = RobustCov(U)
rc =2×20.1117 0.0364 0.0364 0.1695

经典和强大的协方差矩阵不同,因为样本数据中存在的异常值会影响结果。

识别并绘制数据点罗布斯科夫认为离群值。

(团体、μmah、异常值)= robustcov (u);图gscatter (u (: 1), u(:, 2),离群值,“品牌”'牛')({传奇“不是离群值”'异常值'})

图中包含一个坐标轴。轴线包含2个线型对象。这些对象代表不是异常值,而是异常值。

罗布斯科夫将图右侧的数据点标识为潜在异常值,并在计算稳健协方差矩阵时对其进行相应处理。

输入参数

崩溃

用于估计强大的协方差矩阵的示例数据,指定为数字值的矩阵。x是一个n——- - - - - -p矩阵,其中每行是观察,每列都是一个变量。

罗布斯科夫计算强大的协方差矩阵时,删除具有缺少预测值值的行。

数据类型:单身|

名称值对参数

指定可选的逗号分隔的对名称,值参数。名称参数名和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“方法”、“ogk’,‘NumOGKIterations’,1指定强大的估计器作为正交化的GnanadeIkan-kettenring方法,并将正交化迭代的数量设置为1。
对于所有估算

崩溃

鲁棒估计,指定为下列之一。

名称 价值
'fmcd' FAST-MCD(最小协方差决定簇)方法
“ogk” 使正交化Gnanadesikan-Kettenring (OGK)估价
'OliveHawkins' 浓度算法技术,一组快速、一致和高度抗离群的方法

例子:“方法”、“ogk”

仅适用于FMCD和OliveHawkins方法

崩溃

离群值部分,指定为逗号分隔对,由'OutlierFraction'和范围为[0,0.5]的数值。的值1 -OutlierFraction指定最小化协方差决定蛋白的观察分数。

该算法选择大小的子样本h=天花板(n+p+ 1)/ 2),在那里n是观察人数和p是维数。OutlierFraction是否达到最大可能分解的值,并控制子集的大小h协方差决定簇最小化。然后选择算法h大约相等(1 -OutlierFraction)×n每个子集的观察。

例子:“OutlierFraction”,0.25

数据类型:单身|

试验的数目,指定为逗号分隔的对,由“NumTrials”和一个正整数。

如果'方法''fmcd',然后numtrials.为大小为(p+ 1)作为算法的起始点。p是示例数据中的维数。在本例中,默认值为numtrials.是500。

如果'方法''OliveHawkins',然后numtrials.是要使用的试拟合或吸引子的数目。在本例中,默认值为numtrials.是2。此选项仅对非确定性启动有用。

例子:“NumTrials”,300年

数据类型:单身|

仅限FMCD方法

崩溃

标志应用小样本校正因子,指定为逗号分隔对组成“BiasCorrection”,要么1或者0.一个1值表示罗布斯科夫修正了小样本协方差估计中的偏差。一个0值表示罗布斯科夫不适用此修正。

例子:“BiasCorrection”,0

数据类型:逻辑

仅限OGK方法

崩溃

正交化迭代的次数,指定为逗号分隔对的组成部分“NumOGKIterations”和一个正整数。通常,这个值设置为1或2,进一步的步骤不太可能改进估计。

例子:'numiter',1

数据类型:单身|

用于计算单变量强大估计的功能,指定为逗号分隔的对'单变量主义主义者'下面是其中之一。

名称 价值
“tauscale” 使用Yohai和Zamar的“牛尺度”估计,这是一个截断的标准偏差和一个加权平均值。
“qn” 使用Croux和Rousseeuw的QN比例估计。

例子:'单变量主义者','qn'

仅适用于奥利弗霍金斯方法

崩溃

在效率步骤中重新重复的方法,指定为逗号分隔的对“ReweightingMethod”下面是其中之一。

名称 价值
“rfch” 使用两个调整步骤。这是一种提高效率的标准调整方法。
'rmvn' 重新重复多元正常。使用两个重重步骤,该步骤可用于在清洁数据正常时估计各种异常配置下的真正协方差矩阵。

例子:“ReweightingMethod”、“rmvn”

集中步骤数,指定为逗号分隔的对'numconcentationsteps'和一个正整数。

例子:“NumConcentrationSteps”,8

数据类型:单身|

每个吸引子的启动方法,指定为逗号分隔对组成“开始”下面是其中之一。

名称 价值
“经典” 使用经典估计作为开始。这就是DGK吸引子,单独使用时称为DGK估计量。
'中位球' 使用中位球作为开始。中位球是(Med(x),眼睛(p)).因此,50%的欧几里德距离样品中间距离最远的病例被修剪用于计算MB开始。这是MB吸引子,它是由自己使用的,称为MB估计器。
'元素' 吸引子由浓度产生,其中开始是随机选择的元素开始:经典估计器应用于P + 1例的随机选择的“元素集”。这种“元素”吸引子是计算上有效的,但遭受理论缺点,因为它不一致和零击穿。

默认情况下,选择吸引子如下:如果其中一个吸引子是'中位球',则任何位置估计与之有较大欧氏距离的吸引子中位数(X)不使用超过数据(换句话说,在中位球外)。然后基于MCD标准选择最终吸引子。

您还可以为函数指定函数句柄,该函数返回用于计算初始位置和分散估计的两个输出参数。

还可以指定一个单元格数组,其中包含上表和函数句柄中给出的选项的任意组合。所使用的吸引子数等于单元阵列的长度。这个选项允许更多的控制算法和能力,以指定自定义数量的吸引器和启动。

例子:“StartMethod”、“medianball”

输出参数

崩溃

鲁棒协方差矩阵估计,返回为p——- - - - - -p数字矩阵。p为样本数据中包含的预测器数量。

强大的平均估计,返回为1-by-p数组数值。p为样本数据中包含的预测器数量。

稳健的距离,返回为1-by-n数组数值。罗布斯科夫删除x包含丢失的数据,因此马赫可能小于行的数量x

观察指数作为样本数据中的离群值保留x,返回为1-by-n逻辑值的数组。一个0值表示该观察值不是离群值。一个1值表示观察是一个异常值。

罗布斯科夫删除x包含丢失的数据,因此离群值可能小于行的数量x

包含估计信息的结构,作为结构返回。

算法

崩溃

最小协方差行列式估计

协方差最小行列式(MCD)是多变量位置和散射的最快估计,既是一致且坚固的散射。然而,对MCD的精确评估是不切实际的,因为它是计算样本数据的所有可能子集的昂贵昂贵的。罗布斯科夫使用FAST-MCD方法实现MCD[3]

FAST-MCD方法选择h观察结果n(n/ 2 <h≤.n)其经典协方差矩阵具有最低的决定因素。MCD的意思是含义h选定的观察。

MCD协方差是协方差矩阵h选取的点,乘以一个一致性因子,以获得多元正态分布的一致性,并乘以一个校正因子,以纠正小样本容量的偏差。

使正交化Gnanadesikan-Kettenring估计

使正交化Gnanadesikan-Kettenring(OGK)估计是从GNANASEIKAN和Kettering(GK)估计器开始的散射的正定估计,这是一种可能是非正定的一对稳健的散点矩阵[1].估计使用一种主成分的形式,称为对分散矩阵的正交迭代,用稳健的方差替换其特征值,它可能是负的。这个过程可以迭代得到改进的结果,通常在2或3次迭代后得到收敛。

橄榄霍金斯估计

奥利弗-霍金斯估计使用了奥利弗和霍金斯提出的“浓度算法”技术。这是一组快速、一致且高度抗离群值的方法。该估计是四阶矩椭圆轮廓分布协方差的鲁棒根n相容估计。这个估计是通过首先产生试验估计,或开始,然后使用浓度技术从每个试验拟合,以获得吸引子。

假设(T.0j,C.0j是一个开始,那么在下一次迭代时,经典均值和协方差估计器是从大约计算的n/ 2情况下(n是观测值的个数),其马氏距离最小,基于前一次迭代的估计。这个迭代可以继续进行固定数量的步骤k,最后一步估计,k是吸引人。基于给定的标准选择最终估计。

默认情况下,使用两个吸引器。第一个吸引子是Devlin-GnanadeIkan-Kettering(DGK)吸引子,其中开始使用的是经典估算器。第二个吸引子是中位数球(MB)吸引子,其中开始的开始是(中位数(x),眼睛(p)),换句话说,最接近的一组数据中位数(x)在欧氏距离。如果DGK吸引子的位置估计在中值球之外,则使用MB吸引子,否则使用行列式最小的吸引子。最终的均值估计是所选吸引子的均值估计,最终的协方差估计是所选吸引子的协方差估计,乘以一个比例因子使估计在正态分布上一致。

参考文献

Maronna, R.和Zamar, R. h ..“高维数据集的位置和离散度的稳健估计。”Technometrics., 2002年第50卷。

[2] Pison,S. Van Aelst和G. Willems。“LTS和MCD的小样本校正。”Metrika., 2002年第55卷。

[3]卢梭,P.J.和Van Driessen, K.《最小协方差行列式估计的快速算法》。Technometrics., 1999年第41卷。

[4]橄榄,D.J.“多元定位和分散的抗性估计。”计算统计和数据分析,卷。46,pp。99-102,2004。

另请参阅

介绍了R2016a