主要内容

链接

聚类层次聚类树

描述

Z=联系(X返回一个矩阵Z它对一棵树进行编码,树中包含输入数据矩阵行的分层簇X

例子

Z=联系(X方法使用指定的方法,它描述了如何测量星团之间的距离。有关更多信息,请参见联系

例子

Z=联系(X方法度规通过传递度规pdist的行之间的距离X

例子

Z=联系(X方法度规“savememory”,价值使用内存节省算法价值“上”时使用标准算法价值“关闭”

例子

Z=联系(X方法pdist_inputs通过pdist_inputspdist的行之间的距离X.的pdist_inputs论证由“seuclidean”闵可夫斯基的,或“mahalanobis”公制和额外的距离公制选项。

Z=联系(y使用向量表示y距离矩阵。y是由pdist或者是更一般的不相似矩阵,符合的输出格式pdist

例子

Z=联系(y方法使用指定的方法,它描述了如何测量星团之间的距离。

例子

全部折叠

随机生成样本数据20,000个观察。

rng (“默认”%的再现性X =兰德(20000 3);

使用。创建一个层次集群树病房联系方法。在这种情况下“SaveMemory”选择的clusterdata函数被设置为“上”默认情况下。通常,指定最佳值“SaveMemory”基于X以及可用内存。

Z =连杆(X,“病房”);

将数据聚为最多四组,并绘制结果。

c =集群(Z,“Maxclust”4);scatter3 (X (: 1) X (:, 2), X(:, 3), 10日,c)

图中包含一个坐标轴。坐标轴包含一个散点类型的对象。

集群在数据中标识四个组。

在。中找到最多三个群集fisheriris数据集和比较花的聚类分配到他们已知的分类。

加载示例数据。

负载fisheriris

使用。创建一个层次集群树“平均”方法和“chebychev”指标。

Z =连杆(量,“平均”“chebychev”);

在数据中查找最多三个集群。

T =集群(Z,“maxclust”3);

创建一个树状图Z.要查看这三个集群,请使用“ColorThreshold”在倒数第三和倒数第二连杆之间的中间切断。

cutoff =中位数([Z(end-2,3) Z(end-1,3)]);系统树图(Z,“ColorThreshold”,截止)

图中包含一个坐标轴。轴包含29个线型对象。

显示的最后两行Z来看看这三个集群是如何组合成一个集群的。链接将第293(蓝色)星团与第297(红色)星团结合,形成第298(红色)星团1.7583链接然后将第296(绿色)簇与第298簇合并。

lastTwo = Z (end-1:最终,:)
lastTwo =2×3293.0000 297.0000 1.7583 296.0000 298.0000 3.4445

看看集群分配是如何对应这三种物种的。例如,其中一个集群包含50第二种和的花40第三种花。

交叉表(T,物种)
ans =3×30 0 10 0 50 40 50 0 0

加载examgrades数据集。

负载examgrades

使用链接.使用“单一”方法和指数为的闵可夫斯基度规3.

Z =连杆(成绩,“单一”, {闵可夫斯基的3});

观察第25个聚类步骤。

: Z(25日)
ans =1×386.0000 137.0000 4.5307

链接将第86次观测与第137次聚类相结合,形成指数聚类 120 + 25 145 ,其中120是观测的总数成绩25是行号Z.第86个观测点与第137个星系团中的任何一个点之间的最短距离是4.5307

使用不相似矩阵创建一个凝聚层次聚类树。

取一个不同矩阵X把它转换成这样的向量形式链接接受使用squareform

X = [0 1 2 3];1 1 4 5;2 4 0 6;3 5 6 0];y = squareform (X);

使用链接“完成”计算簇间距离的方法。的前两列Z展示链接结合集群。第三列Z给出了星团之间的距离。

Z =连杆(y,“完成”
Z =3×31 2 1 3 5 4 4 6 6

创建一个树状图Z.x轴对应的是树的叶子节点,y轴对应的是集群之间的连接距离。

系统树图(Z)

图中包含一个坐标轴。轴线包含3个线型对象。

输入参数

全部折叠

输入数据,指定为具有两行或多行的数字矩阵。行表示观察结果,列表示类别或维度。

数据类型:|

计算集群之间距离的算法,指定为表中值之一。

方法 描述
“平均”

未加权平均距离(UPGMA)

“重心”

质心距离(UPGMC),仅适用于欧几里得距离

“完成”

最远的距离

“中值”

加权质心距离(WPGMC),仅适用于欧几里得距离

“单一”

最短的距离

“病房”

内平方距离(最小方差算法),仅适用于欧氏距离

“加权”

加权平均距离

有关这些方法的更多信息,请参见联系

距离度量,指定为pdist函数。下表描述了这些指标。

价值 描述
“欧几里得”

欧氏距离(默认)。

“squaredeuclidean”

平方欧氏距离。(此选项仅用于提高效率。它不满足三角形不等式)

“seuclidean”

标准化的欧氏距离。观测值之间的每个坐标差除以相应的标准差,S =性病(X, omitnan).使用DistParameter为指定另一个值年代

“mahalanobis”

马氏距离的样本协方差XC = X (X, omitrows).使用DistParameter为指定另一个值C,其中矩阵C是对称的正定的。

“cityblock”

城市街区的距离。

闵可夫斯基的

闵可夫斯基距离。默认指数是2。使用DistParameter指定不同的指数P,在那里P为指数的正标量值。

“chebychev”

切比切夫距离(最大坐标差)。

的余弦

1减去点之间夹角的余弦值(作为向量)。

“相关”

一减去点之间的样本相关性(作为值的序列处理)。

“汉明”

汉明距离,是坐标差的百分比。

“jaccard”

1减去雅卡尔系数,雅卡尔系数是不同的非零坐标的百分比。

“枪兵”

1减去观察值之间的样本斯皮尔曼等级相关性(作为值的序列处理)。

distfun

自定义距离功能手柄。距离函数有这样的形式

函数ZJ D2 = distfun(子)距离计算%...
在哪里

  • 是一个1——- - - - - -n包含单个观测值的向量。

  • ZJ是一个平方米——- - - - - -n包含多个观测值的矩阵。distfun必须接受矩阵ZJ有任意数量的观测结果。

  • D2是一个平方米——- - - - - -1距离向量D2 (k)观察距离是多少ZJ (k,:)

如果数据不是稀疏的,通常可以使用内置距离而不是函数句柄更快地计算距离。

有关更多信息,请参见距离度量

使用pdist_inputs而不是度规来指定附加的输入参数DistParameterpdist“seuclidean”闵可夫斯基的,或“mahalanobis”

数据类型:字符|字符串|function_handle

距离度量和距离度量选项,指定为由两个输入参数组成的逗号分隔对的单元格数组距离DistParameter函数的pdist.此参数仅在指定时有效“seuclidean”闵可夫斯基的,或“mahalanobis”

例子:{“闵可夫斯基”,5}

数据类型:细胞

国旗的“savememory”选项,指定为either“上”“关闭”.的“上”设置的原因链接不计算距离矩阵而构造聚类。的“上”仅当方法“重心”“中值”,或“病房”度规“欧几里得”

价值“上”,链接的运行时间与维数(列数)成正比X).当价值“关闭”,链接内存需求是成比例的N2,在那里N为观察次数。使用的最佳(最少时间)设置价值这取决于问题的维度、观察结果的数量和可用内存。默认的价值设置是最优设置的粗略近似。

默认值是“上”X有20列或更少,或计算机没有足够的内存来存储距离矩阵。否则,默认为“关闭”

例子:“savememory”,“上”

的输出格式相同的数字向量pdist功能:

  • 一个长度的行向量- 1) / 2,对应于矩阵中的观测值对

  • 距离是按顺序排列的(2, 1),(3,1),…, (1),(2),…, (, 2),…, (- 1))

y是否可以用更一般的不相似矩阵符合输出格式pdist

数据类型:|

输出参数

全部折叠

凝聚层次聚类树,返回为数字矩阵。Z是一个- 1)3矩阵,为原始数据中的观测次数。第1和第2列Z包含成对链接的聚类索引以形成二叉树。叶节点的编号从1到.叶节点是用于构建所有更高层次集群的单例集群。每个新形成的簇,对应于行Z(我,:),则指定索引+.条目Z(我,1)Z(我,2)包含构成群集的两个组成群集的指数+.的- 1更高的簇对应于簇树的内部节点。Z(我,3)包含行合并的两个集群之间的连接距离Z(我,:)

例如,考虑构建具有30个初始节点的树。假设群集5和群集7在步骤12合并,在该步骤时两者之间的距离为1.5。然后: Z(12日)(5 7 1.5).新形成的集群有索引12 + 30 = 42.如果集群42出现在后面的一行中,则该函数将在步骤12创建的集群合并为一个更大的集群。

数据类型:|

更多关于

全部折叠

联系

一个链接是两个星团之间的距离。

下面的符号描述了各种方法所使用的连杆:

  • 集群r是由星系团形成的p

  • nr集群中对象的数量是多少r

  • x国际扶轮集群中的第一个对象r

  • 单键,也叫最近的邻居,使用两个星系团中物体之间的最小距离。

    d r 年代 最小值 d 年代 t x r x 年代 j ... n r j 1 ... n 年代

  • 完整的链接,也叫最远的邻居,使用两个星系团中物体之间的最大距离。

    d r 年代 马克斯 d 年代 t x r x 年代 j 1 ... n r j 1 ... n 年代

  • 平均链接使用任意两个集群中所有对象对之间的平均距离。

    d r 年代 1 n r n 年代 1 n r j 1 n 年代 d 年代 t x r x 年代 j

  • 质心连杆使用两个星团的质心之间的欧氏距离。

    d r 年代 x ¯ r x ¯ 年代 2

    在哪里

    x ¯ r 1 n r 1 n r x r

  • 中间联系使用两个星团的加权质心之间的欧氏距离。

    d r 年代 x ˜ r x ˜ 年代 2

    在哪里 x ˜ r x ˜ 年代 是星团的加权质心吗r年代.如果集群r是通过组合集群创建的p x ˜ r 递归定义为

    x ˜ r 1 2 x ˜ p + x ˜

  • 沃德的链接使用增量平方和,即由于加入两个簇而增加的总簇内平方和。簇内平方和定义为簇内所有对象与簇质心距离的平方和。度量的平方和等价于下面的距离度量dr年代),这就是公式链接用途。

    d r 年代 2 n r n 年代 n r + n 年代 x ¯ r x ¯ 年代 2

    在哪里

    • 2 是欧几里得距离。

    • x ¯ r x ¯ 年代 星团的中心是什么r年代

    • nrn年代簇中元素的数量是多少r年代

    在一些参考文献中,Ward's linkage没有使用乘2的因子nrn年代.的链接函数使用这个因子使两个单簇之间的距离与欧几里得距离相同。

  • 加权平均链接使用递归定义两个集群之间的距离。如果集群r是通过组合集群创建的p,之间的距离r和另一个集群年代定义为p年代距离年代

    d r 年代 d p 年代 + d 年代 2

提示

  • 计算连杆(y)可能会很慢y是距离矩阵的向量表示。为“重心”“中值”,“病房”方法,链接检查是否y是欧几里得距离。通过传入来避免这种耗时的检查X而不是y

  • “重心”“中值”方法可以产生不单调的聚类树。当两个星团的距离,r年代,到第三个星系团的距离小于r年代.在本例中,在使用默认方向绘制的树形图中,从叶子到根节点的路径采取了一些向下的步骤。为了避免这种结果,使用另一种方法。图中显示了一个非单调的聚类树。

    在本例中,集群1和集群3加入到一个新集群中,这个新集群和集群2之间的距离小于集群1和集群3之间的距离。结果是一个非单调的树。

  • 您可以提供输出Z其他职能,包括系统树图为了展示这棵树,集群为了给集群分配点,不一致的计算不一致的度量值,和cophenet计算通用性相关系数。

之前介绍过的R2006a