主要内容

ソフトクラスタリングの使用による混合ガウスデ,タのクラスタリング

この例では,ガウス分布の混合からシミュレートされたデータに対するソフトクラスタリングの実装方法を示します。

集群は,クラスターメンバーシップの事後確率を推定してから,最大の事後確率に対応するクラスターに各点を割り当てます。ソフトクラスタリングは,データ点が複数のクラスターに属することができる,別のクラスタリング手法です。ソフトクラスタリングを実装するには,次のようにします。

  1. 各点が各クラスターの原型にどのくらい似ているかを示すクラスタリングメンバーシップスコアを各データ点に割り当てます。ガウス分布の混合の場合,クラスターの原型は対応する成分の平均であり,この成分は推定したクラスターメンバーシップの事後確率になることができます。

  2. クラスタ,メンバ,シップスコアによって点にランクを付けます。

  3. スコアを調べ,クラスタ,メンバ,シップを決定します。

事後確率をスコアとして使用するアルゴリズムの場合,データ点は最大の事後確率に対応するクラスターのメンバーになります。しかし,対応する事後確率が最大値に近い他のクラスターがある場合,データ点はそのクラスターのメンバーになることもできます。クラスタリングの前に,複数のクラスターメンバーシップを得るようにスコアのしきい値を決定することをお勧めします。

この例は,ハ,ドクラスタリングの使用による混合ガウスデ,タのクラスタリングの続きです。

2 .の二変量ガウス分布の混合から派生するデタをシミュレトします。

rng (0,“旋风”%用于再现性Mu1 = [1 2];Sigma1 = [3 .2;2 2);Mu2 = [-1 -2];Sigma2 = [2 0;0 1];X = [mvnrnd(mu1, sigma1200);mvnrnd (mu2 sigma2,100)];

2成分の混合ガウスモデル(gmm)を当てはめます。2つの成分があるので,クラスターメンバーシップの事後確率が[0.4,0.6]の区間にあるすべてのデータ点は,両方のクラスターのメンバーになることが可能と仮定します。

gm = fitgmdist(X,2);阈值= [0.4 0.6];

近似させたGMM通用汽车を使用して,すべてのデタ点にいて成分メンバの事後確率を推定します。これらは,クラスタ,メンバ,シップスコアを表します。

P =后验(gm,X);

各クラスタにいて,すべてのデタ点のメンバシップスコアをランク付けします。各クラスターについて,他のすべてのデータ点に対するランキングに関してデータ点のメンバーシップスコアをプロットします。

n = size(X,1);[~,order] = sort(P(:,1));图的阴谋(1:n, P(订单,1),的r -1: n, P(订单,2),“b -”)({传奇“集群1”《集群2》}) ylabel (“集群成员分数”)包含(“点排名”)标题(“具有完全非共享协方差的GMM”

图中包含一个轴对象。带有完全未共享协方差的axis对象包含2个类型为line的对象。这些对象表示集群1、集群2。

データの散布図で明確な分離を確認するのは困難ですが,メンバーシップスコアをプロットすると,近似させた分布では適切にデータをグループに分離できていることがわかります。

デ,タをプロットし,最大事後確率別にクラスタ,を割り当てます。いずれかのクラスタ,に属することができる点を識別します。

idx = cluster(gm,X);idxBoth =找到(P(: 1) > =阈值(1)& P(: 1) < =阈值(2));numInBoth =数字(idxBoth)
numInBoth = 7
图gscatter (X (: 1), (:, 2), idx,rb的' + o ', 5)情节(X (idxBoth, 1), X (idxBoth, 2),“柯”“MarkerSize”10)传奇({“集群1”《集群2》这两组患者的},“位置”“东南”)标题(散点图-具有完全非共享协方差的GMM)举行

图中包含一个轴对象。标题为散点图-具有完全非共享协方差的GMM的坐标轴对象包含3个类型为直线的对象。这些对象表示集群1、集群2、两个集群。

スコアのしきい値区間を使用すると,7 .。

GMMを使用するソフトクラスタリングでは,ファジk——クラスタリングと同じように,メンバーシップスコアを使用して各点を各クラスターに割り当てます。ファジk——アルゴリズムでは,クラスターの形状が球面に近く,どのクラスターもほぼ同じサイズであると仮定します。これは,すべての成分間で共有され,単位行列の倍数である1つの共分散行列をもつ混合ガウス分布に相当します。対照的に,gmdistributionではさまざまな共分散の構造を指定できます。既定の設定のオプションでは,成分ごとに制約のない共分散行列を推定します。k——に近い,より制限されたオプションとして,共有した対角共分散行列を推定するというものがあります。

GMMをデ,タにあてはめますが,同じ対角共分散行列を各成分が共有するように指定します。このように指定するとファジk——クラスタリングを実行する場合と同じようになりますが,変数ごとに異なる分散が可能なので,柔軟性が高くなります。

gmSharedDiag = fitgmdist(X,2,“CovType”“对角线”...“SharedCovariance”,真正的);

近似させたGMMgmSharedDiagを使用して,すべてのデタ点にいて成分メンバの事後確率を推定します。ソフトクラスタ,の割り当てを推定します。

[idxSharedDiag,~,PSharedDiag] = cluster(gmSharedDiag,X);idxBothSharedDiag = find(PSharedDiag(:,1)>=阈值(1)&...PSharedDiag(: 1) < =阈值(2));numInBoth = nummel (idxBothSharedDiag)
numInBoth = 5

成分間で対角共分散を共有すると,5。

各クラスタにいて,次のようにします。

  1. すべてのデタ点にいてメンバシップスコアをランク付けします。

  2. 他のすべてのデータ点に対するランキングに関して,各データ点のメンバーシップスコアをプロットします。

[~,orderSharedDiag] = sort(PSharedDiag(:,1));图的阴谋(1:n, PSharedDiag (orderSharedDiag, 1),的r -...1: n, PSharedDiag (orderSharedDiag, 2),“b -”)({传奇“集群1”《集群2》},“位置”“东北”) ylabel (“集群成员分数”)包含(“点排名”)标题(“共用对角分量协方差的GMM”

图中包含一个轴对象。带有共享对角线组件协方差的axis对象包含2个类型为line的对象。这些对象表示集群1、集群2。

データをプロットし,成分間で対角共分散が共有されると仮定したGMM分析からハードなクラスタリング割り当てを識別します。また,いずれかのクラスタ,に属することができるデ,タ点を識別します。

图gscatter (X (: 1), (:, 2), idxSharedDiag,rb的' + o ', 5)情节(X (idxBothSharedDiag, 1), X (idxBothSharedDiag, 2),“柯”“MarkerSize”10)传奇({“集群1”《集群2》这两组患者的},“位置”“东南”)标题(散点图-共享对角分量协方差的GMM)举行

图中包含一个轴对象。轴对象的标题为散点图-共享对角分量协方差的GMM包含3个类型为直线的对象。这些对象表示集群1、集群2、两个集群。

参考

||

関連するトピック