模多维标度

这个例子展示了如何使用模形式的不同数据可视化多维标度(MDS)。

不同数据出现当我们有一些组对象,而不是测量每个对象的特点,我们只能衡量相似或不同的每一对对象。例如,不知道城市的经度和纬度的一组,我们可能只知道他们的城际距离。然而,MDS也比物理更抽象的论述与距离。例如,我们可能会要求消费者他们找到几个品牌的花生酱多么相似。

MDS的典型目标是创建一个配置点一个,两个,三个维度,inter-point距离的“接近”原来的不同。MDS的不同使用不同的标准来定义“关闭”。这些点代表对象的集合,所以的情节点可以作为可视化表示的不同。

一些应用程序的“古典”MDS中描述经典多维标度应用于非空间距离的例子。

罗斯科夫数据集的摩尔斯电码

为了演示MDS,我们将使用一个实验调查收集的数据感知的摩尔斯电码(rothkoph E.Z.,J.Exper.Psych。,53(2):94-101). Subjects in the study listened to two Morse code signals (audible sequences of one or more "dots" and "dashes", representing the 36 alphanumeric characters) played in succession, and were asked whether the signals were the same or different. The subjects did not know Morse code. The dissimilarity between two different characters is the frequency with which those characters were correctly distinguished.

36 x36矩阵存储为论述630 -元素包含副斜杆向量元素的矩阵。您可以使用函数squareform矢量格式之间的转换和完整的矩阵形式。这是前5个字母和他们的相异,重建矩阵形式。

负载莫尔斯:morseChars (1:5)

ans =5 x2细胞{A} {”。——“}{B} {”-…'}{' C '} {’”。'}{' D '} {”——. .'}{“E”} {”。'}

dissMatrix = squareform(不同);dissMatrix (1:5, 1:5)

ans =5×50 167 169 159 180 167 0 96 79 163 169 96 0 141 166 159 79 141 0 172 180 163 166 172 0

在这些数据,大值表明,更多的实验对象能够区分这两种信号,信号更不同。

度量尺度

度量MDS创建一个配置点的,这样他们的interpoint距离近似原始的异同。一个近似衡量拟合优度的被称为“压力”,这就是我们最初将使用。计算配置,我们提供mdscale函数的不同数据,尺寸我们想要创建的点(两个),和我们使用的拟合优度的名称标准。

差异日元= mdscale (2“标准”,“metricstress”);大小(日元)

ans =1×236 2

mdscale返回一个点集,在这个例子中,两个维度。我们可以把它们,但在使用这个解决方案(例如,配置)可视化数据,我们会做一些情节帮助检查是否interpoint距离这个解决方案重新创建原始的异同。

谢泼德图

谢泼德阴谋的散点图interpoint距离(n (n - 1) / 2)与原来的不同。这可以帮助确定拟合优度MDS的解决方案。如果配合差,那么可视化可以误导,因为大(小)点之间的距离可能不对应的数据差异大(小)。在谢泼德的阴谋,一个狭窄的散射约1:1线表明合适的距离不同,而大的散射或非线性模式表明缺乏配合。

distances1 = pdist (Y1);情节(distances1相异,“波”,200年[0],[0 200),“k——”);包含(“相异”)ylabel (“距离”)

图包含一个坐标轴对象。坐标轴对象包含的异同,ylabel距离包含2线类型的对象。一个或多个行显示的值只使用标记

这情节表明这个度量的解决方案在二维空间中可能是不合适的,因为它显示了一个非线性模式和分散。前者意味着许多最大的不同可能会有点夸张的可视化,而温和的和小差异会被低估。后者意味着距离可视化通常会反映不同。特别是,一个好分数的大差异会严重低估了。

比较度量标准

我们可以试着用一个三维空间改善可视化的忠诚,因为有更多的自由度,应该改进。我们也可以尝试不同的标准。两个其他受欢迎的度量标准被称为马斯映射和²压力(“sstress”)。每个会导致一个不同的解决方案,和一个或其他可能更有用的可视化原来的不同。

差异Y2 = mdscale (2“标准”,“马斯”);distances2 = pdist (Y2);差异Y3 = mdscale (2“标准”,“metricsstress”);distances3 = pdist (Y3);

谢泼德图显示了不同的三个解决方案。金宝搏官方网站

情节(distances1相异,“波”,…distances2相异,' r + ',…distances3相异,“g ^”,…200年[0],[0 200),“k——”);包含(“相异”)ylabel (“距离”)({传奇“压力”,“马斯映射”,“方压力”},“位置”,“西北”);

图包含一个坐标轴对象。坐标轴对象包含的异同,ylabel距离包含4线类型的对象。一个或多个行显示的值只使用这些对象标记代表压力,马斯映射,²压力。

注意到最大的不同价值观,平方的分散应力标准往往是接近1:1线比其他两个标准。因此,对于这些数据,²压力有点擅长保持最大的不同,虽然它严重低估了其中的一些。在较小的不同价值观,马斯的散射映射标准往往是有点接近1:1线比其他两个标准。因此,马斯映射是更好地保护小不同。压力是介于两者之间。这三个标准显示一定的非线性,表明指标比例可能不合适。然而,标准的选择依赖于可视化的目的。

非度量尺度

非度量尺度是MDS的第二种形式,有一个雄心勃勃的目标略低于度量尺度。而不是试图创建一个配置点的两两距离近似原始的异同,非度量MDS的尝试只是近似的排名的不同。另一种说法是,非度量MDS创建一个配置点的interpoint距离近似单调变换原来的不同。

实际使用的建筑是大interpoint距离对应于大相异,和小interpoint距离差异小。这通常是足以传达项目或类别之间的关系进行了研究。

首先,我们将创建一个配置点的2 d。非度量尺度与克鲁斯卡非度量应力判据是默认的mdscale。

[Y、压力差异]= mdscale (, 2);压力

压力= 0.1800

第二输出mdscale的值是所使用的标准,来衡量解决方案如何再现了不同。较小的值表示一个更好的选择。这个配置的压力,约18%,被认为是穷,公平的压力非度量标准。可接受的准则值的范围为不同的标准不同。

第三输出mdscale是一个向量的差异。这些都是简单的单调变换不同。他们将用于非度量尺度谢泼德下面的情节。

不同的数据可视化

虽然这不如我们想,2 d表示简单的可视化。我们可以画出每个信号的点和破折号来帮助理解为什么受试者感知差异的字符。这个配置的方向和规模完全是任意的,所以没有显示轴标签或值。

情节(Y (: 1), Y (:, 2),“。”,“标记”,“没有”);文本(Y (: 1), Y (:, 2), char (morseChars (:, 2)),“颜色”,“b”,…“字形大小”12“FontWeight”,“大胆”,“HorizontalAlignment”,“中心”);甘氨胆酸h_gca =;h_gca。XTickLabel = [];h_gca。YTickLabel = [];标题(罗特科普夫非度量MDS的解决方案”年代摩尔斯电码的数据);

图包含一个坐标轴对象。坐标轴对象与标题非度量MDS rothkoph摩尔斯电码的数据解决方案包含37线类型的对象,文本。

这重建表明,字符可以被描述的两个轴:粗略地说,西北和东南方向歧视信号长度,而西南/东北方向是点从划的歧视。最短的两个字符信号,“E”和“T”,有些位置的这种解释。

的非度量谢泼德的阴谋

在非度量缩放、习惯上的差距以及距离谢泼德的阴谋。这提供了一种检查重建的距离差距如何,以及如何从不同非线性单调变换差距。

距离= pdist (Y);[喑哑,奥德]= sortrows(((:)差异差异(:)));情节(不同的距离,“波”,…(奥德)的异同,差距(奥德),' r . - ');包含(“相异”)ylabel (“距离/差距”)({传奇“距离”“差异”},“位置”,“西北”);

图包含一个坐标轴对象。坐标轴对象包含相异,ylabel距离/差异包含2线类型的对象。一个或多个行显示的值只使用这些对象标记代表距离,差异。

这个图展示了如何在非度量距离扩展近似差距(蓝色圆圈的红色的散射线),和差异反映的不同(红线是非线性的,但增加)。比较这个和谢泼德的情节从指标比例显示了两种方法的差异。非度量尺度尝试重现不是原来的相异,而是一种非线性变换(差距)。

在做,非度量扩展了一种权衡:非度量距离重现差距比度量距离重建散射的相异,这个情节是小度量的阴谋。然而,差距非常非线性的函数不同。因此,虽然我们可以更确定的非度量的解决方案,可视化的小距离对应的数据差异小,重要的是要记住,绝对的点之间的距离,可视化不应太当真,只有相对距离。

3 d非度量尺度

因为压力在2 d建筑有点高,我们可以尝试一个3 d的配置。

[Y、压力差异]= mdscale(相异,3);压力

压力= 0.1189

这个压力值是相当低,表明一个更好的选择。我们可以在三维图配置。现场MATLAB®图可以交互式地旋转;在这里我们将满足于从两个不同的角度。

plot3 (Y (: 1), Y (:, 2), Y (:, 3),“。”,“标记”,“没有”);文本(Y (: 1), Y (:, 2), Y (:, 3), char (morseChars (:, 2)),“颜色”,“b”,…“字形大小”12“FontWeight”,“大胆”,“HorizontalAlignment”,“中心”);集(gca),“XTickLabel”[],“YTickLabel”[],“ZTickLabel”[]);标题(罗特科普夫非度量MDS的解决方案”年代摩尔斯电码的数据);59岁的视图(18);网格在

图包含一个坐标轴对象。坐标轴对象与标题非度量MDS rothkoph摩尔斯电码的数据解决方案包含37线类型的对象,文本。

从这个角度,我们可以看到的人物——和two-symbol信号从较长的字符信号,布置得井然有序,从对方,因为他们是最容易区分。如果我们视图旋转不同的角度来看,我们可以看到,人物可以的时间越长,大概在2 d配置,被描述的符号和点的数量的数量或破折号。(从第二个角度,一些短的人物似乎不合逻辑地点缀着时间的。)

视图(9 8);

图包含一个坐标轴对象。坐标轴对象与标题非度量MDS rothkoph摩尔斯电码的数据解决方案包含37线类型的对象,文本。

这个3 d配置可以更准确的距离比2 d配置,然而,信息本质上是一样的:受试者感知的信号主要是他们包含多少符号而言,多少点和破折号。在实践中,2 d配置可能是完全可以接受的。