主要内容

使用硬群体群集高斯混合数据

这个例子展示了如何在混合高斯分布的模拟数据上实现硬聚类。

高斯混合模型可以用于聚类数据,通过实现拟合模型的多元正态分量可以表示聚类。

模拟高斯分布式混合的数据

模拟使用两个二核高斯分布的混合的数据mvnrnd..

RNG('默认')重复性的%mu1=[12];sigma1=[3.2。2 2]; mu2=[-1-2];sigma2=[20;0 1]; X=[mvnrnd(mu1,sigma1200);mvnrnd(mu2,SIGMA2100)];n=尺寸(X,1);数字散点(X(:,1),X(:,2),10,'ko')

图包含轴。轴包含类型散射的对象。

将高斯混合模型适合模拟数据

拟合双组分高斯混合模型(GMM)。在这里,您知道要使用的组件的正确数量。在实践中,对于真实数据,此决策需要比较具有不同数量组件的模型。另外,请求显示期望最大化拟合例程的最终迭代。

选项= statset('展示','最终的');gm = fitgmdist(x,2,“选项”,选项)
26次迭代,对数似然=-1210.59 gm=二维两组分的高斯混合分布组分1:混合比例:0.629514平均值:1.0756 2.0421组分2:混合比例:0.370486平均值:-0.8296-1.8488

绘制两组分混合物分布的估计概率密度等值线。两个二元正态分量重叠,但其峰值不同。这表明数据可以合理地分为两类。

持有gmpdf = @(x,y)arrayfun(@(x0,y0)pdf(gm,[x0,y0]),x,y);Fcontour(GMPDF,[ -  8,6])标题('散射图和装配GMM轮廓') 抓住离开

图中包含一个轴。带有标题散点图和拟合的GMM轮廓的轴包含两个类型为“散布”、“函数轮廓”的对象。

使用装有的GMM聚类数据

实现“硬集群”,一种将每个数据点精确分配给一个集群的方法。对于GMM,将每个点分配到GMM中的两个混合组件之一。每个簇的中心是相应的混合物组分意味着。有关“软群集”的详细信息,请参阅基于软聚类的高斯混合数据聚类.

通过将装配的GMM和数据传递给群集将数据分区为群集.

idx=簇(gm,X);cluster1=(idx==1);%| 1 |对于群集1会员资格cluster2=(idx==2);%| 2 |第2组成员图gscatter(X(:,1),X(:,2),idx,“rb”,'+ o')传奇(“集群1”,“集群2”,'地点',“最好的”)

图中包含一个轴。轴包含2个类型为line的对象。这些对象表示集群1、集群2。

每个簇对应于混合分布中的一个二元正态分量。根据群集成员资格分数将数据分配给群集。每个群集成员资格分数是数据点来自相应组件的估计后概率。将每个点指定给对应于最高后验概率的混合成分。

您可以通过将装配的GMM和数据传递给以下任一方法来估算群集成员身份后面概率:

  • 后面的

  • ,并请求返回第三个输出参数

估算群集成员资格概率

估计并绘制每个点的第一组件的后验概率。

p =后验(Gm,x);图分散(x(cluster1,1),x(cluster1,2),10,p(cluster1,1),'+') 抓住散射(X(cluster2,1),X(cluster2,2),10,P(cluster2,1),'o') 抓住离开clrmap=jet(80);颜色映射(clrmap(9:72,:))ylabel(颜色条,“成分1后验概率”)传奇(“集群1”,“集群2”,'地点',“最好的”) 标题(“散点图和聚类1后验概率”)

图中包含一个轴。具有标题散点图和簇1后验概率的轴包含2个散点类型的对象。这些对象表示集群1、集群2。

P是一个N-2集群成员资格概率的2个矩阵。第一列包含集群1的概率,第二列对应于群集2。

将新数据分配给群集

您也可以使用方法将新数据点指定给在原始数据中找到的混合物成分。

从高斯分布的混合模拟新数据。而不是使用mvnrnd.,您可以使用以下方法创建具有真实混合物成分平均值和标准偏差的GMMGMDistribution.,然后通过GMM到随机的模拟数据。

Mu=[mu1;mu2];Sigma=cat(3,sigma1,sigma2);p=[0.75 0.25];%混合比例gmtrue = Gmdistribution(mu,sigma,p);x0 =随机(Gmtrue,75);

通过通过装有的GMM为新数据分配群集(转基因的)而新的数据.请求集群成员身份后部概率。

[idx0,~,P0]=簇(gm,X0);图fcontour(gmPDF,[min(X0(:,1))max(X0(:,1))min(X0(:,2))max(X0(:,2))保持gscatter(X0(:,1),X0(:,2),idx0,“rb”,'+ o')传奇(“拟合GMM轮廓”,“集群1”,“集群2”,'地点',“最好的”) 标题(“新数据群集分配”) 抓住离开

图包含轴。具有标题新数据群集分配的轴包含3型函数窗口,行的对象。这些对象表示配合GMM轮廓,群集1,群集2。

对于为了在对新数据进行聚类时提供有意义的结果,X0应该来自与我们相同的人口X,用于创建混合分布的原始数据。特别是,在计算X0,后面的使用估计的混合概率。

另见

||||

相关话题