强大的多变量协方差和平均估计
使用高斯copula从二元分布生成随机数据点。
RNG.默认ρ= [1,0.05,0.05,1];u = copularnd (“高斯”,rho,50);
修改5个随机选取的观察值为异常值。
噪音= randperm (50, 5);u(噪音,1)=(噪音,1)* 5;
使用三种可用的方法计算鲁棒协方差矩阵:Fast-MCD,正交Gnanadesikan-Kettenring (OGK),和Olive-Hawkins。
[SFMCD,MFMCD,DFMCD,OutFMCD] = RobustCov(U);[Sogk,Mogk,Dogk,Outogk] = RobustCov(U,'方法',“ogk”);[soh,moh,doh,outoh] = robustcov(你,'方法','OliveHawkins');
使用马氏测量方法计算样本数据的经典距离值。
D_classical = pdist2(u, mean(u)),“泰姬陵”);p =尺寸(U,2);chi2quantile = sqrt(chi2inv(0.975,p));
为每个稳健的协方差计算方法创建DD图。
图subplot(2,2,1) plot(d_classical, dfmcd,“o”) line([chi2quantile, chi2quantile], [0,30],'颜色',“r”线([0,6],[Chi2quantile,Chi2quantile],'颜色',“r”抱紧上情节(d_classical (Outfmcd) dfmcd (Outfmcd),' r + ')Xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题('DD Plot,FMCD方法'抱紧关闭子图(2,2,2)绘图(d_classical,dogk,“o”) line([chi2quantile, chi2quantile], [0,30],'颜色',“r”线([0,6],[Chi2quantile,Chi2quantile],'颜色',“r”抱紧上绘图(D_Classical(Outogk),Dogk(Outogk),' r + ')Xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题(“DD图,OGK方法”抱紧关闭次要情节(2,2,3)情节(d_classical,哎,“o”) line([chi2quantile, chi2quantile], [0,30],'颜色',“r”线([0,6],[Chi2quantile,Chi2quantile],'颜色',“r”抱紧上情节(d_classical (Outoh),哎(Outoh),' r + ')Xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题('DD Plot,Olive-Hawkins方法'抱紧关闭
在DD图中,数据点倾向于以通过原点的直线簇簇。远离这一行的点通常被认为是异常值。在每个先前的图中,红色'+'符号表示数据点罗布斯科夫
被认为是局外人。
这个例子展示了如何使用罗布斯科夫
评估多元正态分布或其他椭圆轮廓分布的样本数据。
从多变量正态分布生成随机样本数据。计算强大的协方差估计的Mahalanobis距离(使用Olive-Hawkins方法)和经典协方差估计。
rng (“默认”) x1 = mvnrnd(zeros(1,3),eye(3),200);[~, ~, d1] = robustcov(x1,'方法','OliveHawkins');d_classical1 = pdist2 (x1,意味着(x1)、“mahalanobis”);
从椭圆形(EC)分布生成随机样本数据。计算强大的协方差估计的Mahalanobis距离(使用Olive-Hawkins方法)和经典协方差估计。
mu1 = [0 0 0];sig1 =眼睛(3);mu2 = [0 0 0];sig2 = 25 *眼睛(3);X2 = [MVNRND(MU1,SIG1,120); MVNRND(MU2,SIG2,80)];[〜,〜,d2] = robustcov(x2,'方法','OliveHawkins');D_classical2 = pdist2(x2, mean(x2)),“mahalanobis”);
从多元对数正态分布生成随机样本数据,既不是多元正态分布,也不是椭圆曲线。计算强大的协方差估计的Mahalanobis距离(使用Olive-Hawkins方法)和经典协方差估计。
x3 = exp(x1);[〜,〜,d3] = robustcov(x3,'方法','OliveHawkins');D_classical3 = pdist2(x3, mean(x3)),“mahalanobis”);
为三组样本数据中的每一个创建D-D图以比较。
图形子图(2,2,1)绘图(d_classical1,d1,“o”) line([0 4.5], [0, 4.5]) xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题('dd plot,多元正常')子图(2,2,2)绘图(d_classical2,d2,“o”)行([0 18],[0,18])xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题(“DD情节,Elliptically-Contoured”)子图(2,2,3)绘图(d_classical3,d3,“o”)行([0 18],[0,18])xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题(“DD图,200个对数正常案例”)
对于具有多变量正态分布的数据(如左上角所示),绘制的点遵循从原点延伸的直线,45度线。对于具有椭圆形状分布的数据(如右上角所示),绘制的点遵循直线,但不与原点处的45度角。对于Lognormal分布(如左下角所示),绘图的点不遵循直线。
在对数正态分布图中很难识别任何模式,因为大多数点都在图的左下角。使用加权DD图来放大这个角,并揭示当存在较大的鲁棒距离时被遮挡的特征。
D3_weighted = D3(D3
在图中添加第四个子图,以显示对数正态分布数据的加权过程的结果。
子图(2,2,4)绘图(d_classical_uighted,d3_wuitioned,“o”)线([0 3],[0,3])Xlabel(“Mahalanobis距离”)ylabel('鲁棒距离')标题('加权DD Plot,200个Lognormal案例')
这个图上的刻度表明它代表了对数正态数据的原始DD图的放大视图。这个视图更清楚地显示了图缺乏模式,这表明数据既不是多元正态曲线也不是椭圆曲线。
使用高斯copula从二元分布生成随机数据点。
RNG.默认ρ= [1,0.05,0.05,1];u = copularnd (“高斯”,rho,50);
修改5个随机选取的观察值为异常值。
噪音= randperm (50, 5);u(噪音,1)=(噪音,1)* 5;
使用散点图可视化双变量数据。
图散射(u (: 1), (2):,)
大多数数据点都出现在绘图的左侧。但是,一些数据点出现在右侧。这些点是可能影响协方差矩阵计算的可能异常值。
比较古典和强大的协方差矩阵。
c = cov(u)
c =2×20.5523 0.0000 0.0000 0.0913
RC = RobustCov(U)
rc =2×20.1117 0.0364 0.0364 0.1695
经典和强大的协方差矩阵不同,因为样本数据中存在的异常值会影响结果。
识别并绘制数据点罗布斯科夫
认为离群值。
(团体、μmah、异常值)= robustcov (u);图gscatter (u (: 1), u(:, 2),离群值,“品牌”,'牛')({传奇“不是离群值”,'异常值'})
罗布斯科夫
将图右侧的数据点标识为潜在异常值,并在计算稳健协方差矩阵时对其进行相应处理。
x
- - - - - -样本数据用于估计强大的协方差矩阵的示例数据,指定为数字值的矩阵。x
是一个n——- - - - - -p矩阵,其中每行是观察,每列都是一个变量。
罗布斯科夫
计算强大的协方差矩阵时,删除具有缺少预测值值的行。
数据类型:单身
|双
指定可选的逗号分隔的对名称,值
参数。名称
参数名和价值
是相应的价值。名称
必须出现在引号内。您可以以任何顺序指定多个名称和值对参数Name1, Value1,…,的家
.
“方法”、“ogk’,‘NumOGKIterations’,1
指定强大的估计器作为正交化的GnanadeIkan-kettenring方法,并将正交化迭代的数量设置为1。
'方法'
- - - - - -强大的估算器'fmcd'
(默认)|“ogk”
|'OliveHawkins'
鲁棒估计,指定为下列之一。
名称 | 价值 |
---|---|
'fmcd' |
FAST-MCD(最小协方差决定簇)方法 |
“ogk” |
使正交化Gnanadesikan-Kettenring (OGK)估价 |
'OliveHawkins' |
浓度算法技术,一组快速、一致和高度抗离群的方法 |
例子:“方法”、“ogk”
'OutlierFraction'
- - - - - -离群值分数离群值部分,指定为逗号分隔对,由'OutlierFraction'
和范围为[0,0.5]的数值。的值1 -OutlierFraction指定最小化协方差决定蛋白的观察分数。
该算法选择大小的子样本h=天花板(n+p+ 1)/ 2),在那里n是观察人数和p是维数。OutlierFraction
是否达到最大可能分解的值,并控制子集的大小h协方差决定簇最小化。然后选择算法h大约相等(1 -OutlierFraction)×n每个子集的观察。
例子:“OutlierFraction”,0.25
数据类型:单身
|双
“NumTrials”
- - - - - -试验数量试验的数目,指定为逗号分隔的对,由“NumTrials”
和一个正整数。
如果'方法'
是'fmcd'
,然后numtrials.
为大小为(p+ 1)作为算法的起始点。p是示例数据中的维数。在本例中,默认值为numtrials.
是500。
如果'方法'
是'OliveHawkins'
,然后numtrials.
是要使用的试拟合或吸引子的数目。在本例中,默认值为numtrials.
是2。此选项仅对非确定性启动有用。
例子:“NumTrials”,300年
数据类型:单身
|双
“BiasCorrection”
- - - - - -标志应用小样本校正因子1
(默认)|0
标志应用小样本校正因子,指定为逗号分隔对组成“BiasCorrection”
,要么1
或者0
.一个1
值表示罗布斯科夫
修正了小样本协方差估计中的偏差。一个0
值表示罗布斯科夫
不适用此修正。
例子:“BiasCorrection”,0
数据类型:逻辑
“NumOGKIterations”
- - - - - -正交化迭代次数正交化迭代的次数,指定为逗号分隔对的组成部分“NumOGKIterations”
和一个正整数。通常,这个值设置为1或2,进一步的步骤不太可能改进估计。
例子:'numiter',1
数据类型:单身
|双
'单变量主义主义者'
- - - - - -用于计算单变量稳健估计的函数“tauscale”
(默认)|“qn”
用于计算单变量强大估计的功能,指定为逗号分隔的对'单变量主义主义者'
下面是其中之一。
名称 | 价值 |
---|---|
“tauscale” |
使用Yohai和Zamar的“牛尺度”估计,这是一个截断的标准偏差和一个加权平均值。 |
“qn” |
使用Croux和Rousseeuw的QN比例估计。 |
例子:'单变量主义者','qn'
“ReweightingMethod”
- - - - - -重新调整方法“rfch”
(默认)|'rmvn'
在效率步骤中重新重复的方法,指定为逗号分隔的对“ReweightingMethod”
下面是其中之一。
名称 | 价值 |
---|---|
“rfch” |
使用两个调整步骤。这是一种提高效率的标准调整方法。 |
'rmvn' |
重新重复多元正常。使用两个重重步骤,该步骤可用于在清洁数据正常时估计各种异常配置下的真正协方差矩阵。 |
例子:“ReweightingMethod”、“rmvn”
'numconcentationsteps'
- - - - - -浓缩步骤数量集中步骤数,指定为逗号分隔的对'numconcentationsteps'
和一个正整数。
例子:“NumConcentrationSteps”,8
数据类型:单身
|双
'startmethod'
- - - - - -每个吸引子的起始方法“经典”
(默认)|'中位球'
|'元素'
|函数处理|细胞阵列每个吸引子的启动方法,指定为逗号分隔对组成“开始”
下面是其中之一。
名称 | 价值 |
---|---|
“经典” |
使用经典估计作为开始。这就是DGK吸引子,单独使用时称为DGK估计量。 |
'中位球' |
使用中位球作为开始。中位球是(Med(x),眼睛(p)) .因此,50%的欧几里德距离样品中间距离最远的病例被修剪用于计算MB开始。这是MB吸引子,它是由自己使用的,称为MB估计器。 |
'元素' |
吸引子由浓度产生,其中开始是随机选择的元素开始:经典估计器应用于P + 1例的随机选择的“元素集”。这种“元素”吸引子是计算上有效的,但遭受理论缺点,因为它不一致和零击穿。 |
默认情况下,选择吸引子如下:如果其中一个吸引子是'中位球'
,则任何位置估计与之有较大欧氏距离的吸引子中位数(X)
不使用超过数据(换句话说,在中位球外)。然后基于MCD标准选择最终吸引子。
您还可以为函数指定函数句柄,该函数返回用于计算初始位置和分散估计的两个输出参数。
还可以指定一个单元格数组,其中包含上表和函数句柄中给出的选项的任意组合。所使用的吸引子数等于单元阵列的长度。这个选项允许更多的控制算法和能力,以指定自定义数量的吸引器和启动。
例子:“StartMethod”、“medianball”
团体
-稳健协方差矩阵估计鲁棒协方差矩阵估计,返回为p——- - - - - -p数字矩阵。p为样本数据中包含的预测器数量。
穆
- 强大的平均估计强大的平均估计,返回为1-by-p数组数值。p为样本数据中包含的预测器数量。
马赫
- 鲁棒距离稳健的距离,返回为1-by-n数组数值。罗布斯科夫
删除x
包含丢失的数据,因此马赫
可能小于行的数量x
.
离群值
- 异常值的指数观察指数作为样本数据中的离群值保留x
,返回为1-by-n逻辑值的数组。一个0
值表示该观察值不是离群值。一个1
值表示观察是一个异常值。
罗布斯科夫
删除x
包含丢失的数据,因此离群值
可能小于行的数量x
.
年代
—包含估计信息的结构包含估计信息的结构,作为结构返回。
协方差最小行列式(MCD)是多变量位置和散射的最快估计,既是一致且坚固的散射。然而,对MCD的精确评估是不切实际的,因为它是计算样本数据的所有可能子集的昂贵昂贵的。罗布斯科夫
使用FAST-MCD方法实现MCD[3]
FAST-MCD方法选择h观察结果n(n/ 2 <h≤.n)其经典协方差矩阵具有最低的决定因素。MCD的意思是含义h选定的观察。
MCD协方差是协方差矩阵h选取的点,乘以一个一致性因子,以获得多元正态分布的一致性,并乘以一个校正因子,以纠正小样本容量的偏差。
使正交化Gnanadesikan-Kettenring(OGK)估计是从GNANASEIKAN和Kettering(GK)估计器开始的散射的正定估计,这是一种可能是非正定的一对稳健的散点矩阵[1].估计使用一种主成分的形式,称为对分散矩阵的正交迭代,用稳健的方差替换其特征值,它可能是负的。这个过程可以迭代得到改进的结果,通常在2或3次迭代后得到收敛。
奥利弗-霍金斯估计使用了奥利弗和霍金斯提出的“浓度算法”技术。这是一组快速、一致且高度抗离群值的方法。该估计是四阶矩椭圆轮廓分布协方差的鲁棒根n相容估计。这个估计是通过首先产生试验估计,或开始,然后使用浓度技术从每个试验拟合,以获得吸引子。
假设(T.0j,C.0j)是一个开始,那么在下一次迭代时,经典均值和协方差估计器是从大约计算的n/ 2情况下(n是观测值的个数),其马氏距离最小,基于前一次迭代的估计。这个迭代可以继续进行固定数量的步骤k,最后一步估计,k是吸引人。基于给定的标准选择最终估计。
默认情况下,使用两个吸引器。第一个吸引子是Devlin-GnanadeIkan-Kettering(DGK)吸引子,其中开始使用的是经典估算器。第二个吸引子是中位数球(MB)吸引子,其中开始的开始是(中位数(x),眼睛(p))
,换句话说,最接近的一组数据中位数(x)
在欧氏距离。如果DGK吸引子的位置估计在中值球之外,则使用MB吸引子,否则使用行列式最小的吸引子。最终的均值估计是所选吸引子的均值估计,最终的协方差估计是所选吸引子的协方差估计,乘以一个比例因子使估计在正态分布上一致。
Maronna, R.和Zamar, R. h ..“高维数据集的位置和离散度的稳健估计。”Technometrics., 2002年第50卷。
[2] Pison,S. Van Aelst和G. Willems。“LTS和MCD的小样本校正。”Metrika., 2002年第55卷。
[3]卢梭,P.J.和Van Driessen, K.《最小协方差行列式估计的快速算法》。Technometrics., 1999年第41卷。
[4]橄榄,D.J.“多元定位和分散的抗性估计。”计算统计和数据分析,卷。46,pp。99-102,2004。
你点击一个链接对应于这个MATLAB命令:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。金宝app
您还可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。