主要内容

非经典多维尺度

这个例子展示了如何使用非经典形式的多维缩放(MDS)来可视化不同数据。

当我们有一组对象时,就会出现不相似数据,而不是测量每个对象的特征,我们只能测量每对对象的相似或不相似程度。例如,我们不知道一组城市的经纬度,而只知道它们的城际距离。然而,MDS也适用于比物理距离更抽象的差异。例如,我们可能要求消费者对几个品牌的花生酱进行相似度评价。

MDS的典型目标是在一维、二维或三维空间中创建点的配置,这些点之间的距离“接近”于原始的不相似点。不同形式的MDS使用不同的标准来定义“关闭”。这些点代表了对象的集合,因此这些点的图可以用作它们的不同之处的可视化表示。

介绍了经典MDS的一些应用经典多维尺度在非空间距离中的应用的例子。

罗斯科普夫的摩尔斯电码数据集

为了演示MDS,我们将使用在实验中收集的数据来调查对莫尔斯电码的感知(Rothkopf, E.Z, j . exp . psych。53(2): 94 - 101)。研究对象听了连续播放的两个摩尔斯电码信号(一个或多个“点”和“破折号”的声音序列,代表36个字母数字字符),并被问及这些信号是相同还是不同。实验对象不知道莫尔斯电码。两个不同字符之间的差异是这些字符被正确区分的频率。

36x36的不相似点矩阵存储为包含矩阵次对角线元素的630个元素向量。你可以使用这个函数squareform在向量格式和完整矩阵形式之间转换。这里是前5个字母和它们的不同之处,以矩阵的形式重建。

负载莫尔斯: morseChars (1:5)
ans =5 x2细胞{A}{”。-'} {' b '}{'-…'} {' c '}{'-.-。'} {' d '} {'-..'} {' e '}{'。'}
dissMatrix = squareform(不相似);dissMatrix (1:5, 1:5)
ans =5×50 167 169 159 180 167 0 96 79 163 169 96 0 141 166 159 79 141 0 172 180 163 166 172 0

在这些数据中,数值越大,表明更多的实验对象能够区分这两个信号,因此信号之间的差异就越大。

度量尺度

度量MDS创建了一个点的配置,使得它们的点间距离近似于原始的不相似点。这种近似的拟合好坏的一种衡量方法被称为“压力”,这是我们最初使用的。为了计算配置,我们提供mdscale函数与不同数据,我们想要在其中创建点的维度数(两个),以及我们正在使用的拟合优度标准的名称。

Y1 = mdscale(dissimilarity, 2,“标准”“metricstress”);大小(日元)
ans =1×236 2

mdscale在本例中,返回二维中的一组点。我们可以绘制它们,但在使用这个解决方案(即配置)来可视化数据之前,我们将绘制一些图来帮助检查从这个解决方案的点间距离是否重现原始的差异。

谢泼德情节

Shepard图是点间距离(有n(n-1)/2个)与原始不相似点之间的散点图。这可以帮助确定MDS解决方案的拟合优度。如果拟合性很差,那么可视化可能会产生误导,因为点之间的大(小)距离可能不对应于数据中的大(小)差异。在Shepard图中,围绕1:1的线的狭窄散点表示距离与不相似点的良好拟合,而较大的散点或非线性模式表示缺乏拟合。

distes1 = pdist(Y1);情节(distances1相异,“波”,[0 200],[0 200],“k——”);包含(“相异”) ylabel (“距离”

图中包含一个轴对象。axis对象包含2个line类型的对象。

这个图表明这个二维的度量解可能是不合适的,因为它显示了一个非线性模式和一个大的散点。前者意味着在可视化中,许多最大的差异往往会被夸大,而中等和较小的差异往往会被低估。后者意味着可视化中的距离通常不能很好地反映不同。特别是,巨大差异中的很大一部分被严重低估了。

比较度量标准

我们可以尝试使用第三维来提高可视化的保真度,因为有了更多的自由度,拟合度应该会提高。我们也可以尝试不同的标准。另外两个流行的度量标准是Sammon Mapping和平方应力(“应力”)。每一种都会导致不同的解决方案,其中一种可能在可视化原始差异时更有用。

Y2 = mdscale(dissimilarity,2,“标准”“马斯”);distes2 = pdist(Y2);Y3 = mdscale(dissimilarity,2,“标准”“metricsstress”);距离3 = pdist(Y3);

Shepard图显示了目前为止三种解决方案的差异。金宝搏官方网站

情节(distances1相异,“波”...distances2相异,' r + '...distances3相异,“g ^”...[0 200],[0 200],“k——”);包含(“相异”) ylabel (“距离”)({传奇“压力”“马斯映射”“方压力”},“位置”“西北”);

图中包含一个轴对象。axis对象包含4个line类型的对象。这些对象表示应力,萨蒙映射,平方应力。

请注意,在最大的不同值处,平方应力准则的散射比其他两个准则更接近1:1的线。因此,对于这些数据,平方应力在保留最大的差异方面更好,尽管它严重低估了其中一些差异。在较小的不同值时,Sammon Mapping准则的散点倾向于比其他两个准则更接近1:1的线。因此,Sammon Mapping在保存小差异方面稍好一些。压力介于两者之间。这三个标准都表现出一定程度的非线性,表明度量尺度缩放可能不合适。然而,标准的选择取决于可视化的目标。

非度量尺度

非度量扩展是MDS的第二种形式,其目标略低于度量扩展。非度量MDS不尝试创建点的配置,其成对距离近似于原始的不相似点,而是仅尝试近似于排名不同之处。另一种说法是,非度量MDS创建了一个点的配置,其点间距离近似于a单调变换原始的不同之处。

这种结构的实际用途是,大的点间距离对应大的差异,小的点间距离对应小的差异。这通常足以传达所研究的项目或类别之间的关系。

首先,我们将在2D中创建点的配置。使用Kruskal的非度量应力准则进行非度量缩放是默认的mdscale

[Y,应力,差异]= mdscale(差异,2);压力
应力= 0.1800

的第二个输出mdscale是所使用的标准的值,用来衡量解决方案如何很好地重现不同之处。较小的值表示更好的拟合。这种配置的应力约为18%,对于非计量应力准则来说,被认为是差到公平。对于不同的准则,可接受的准则值的范围是不同的。

的第三个输出mdscale是所谓视差的矢量。这些只是不相同点的单调变换。它们将在下面的非度量缩放Shepard图中使用。

可视化不同数据

尽管这种拟合没有我们想要的那么好,但2D表示是最容易可视化的。我们可以画出每个信号的点和线,以帮助了解为什么受试者感知到角色之间的差异。这个配置的方向和比例完全是任意的,所以没有显示轴标签或值。

情节(Y (: 1), Y (:, 2),“。”“标记”“没有”);文本(Y (: 1), Y (:, 2), char (morseChars (:, 2)),“颜色”“b”...“字形大小”12“FontWeight”“大胆”“HorizontalAlignment”“中心”);H_gca = gca;h_gca。XTickLabel = [];h_gca。YTickLabel = [];标题(Rothkopf莫尔斯电码数据的非度量MDS解决方案);

图中包含一个轴对象。带有标题的axes对象包含37个类型为行、文本的对象。

这种重建表明,字符可以用两个轴来描述:大致来说,西北/东南方向区分信号长度,而西南/东北方向区分点和破折号。信号最短的两个字符“E”和“T”在这种解释中有些不合适。

非度量Shepard图

在非度量尺度中,习惯上在Shepard图中显示差异和距离。这提供了一个检查距离如何很好地重现差异,以及从不同到差异的单调转换是多么非线性。

距离= pdist(Y);[dum,ord] = sortrows([差异(:)不同(:)]);情节(不同的距离,“波”...(奥德)的异同,差距(奥德),' r . - ');包含(“相异”) ylabel (“距离/差距”)({传奇“距离”“差异”},“位置”“西北”);

图中包含一个轴对象。axis对象包含2个line类型的对象。这些物体代表距离、差距。

该图显示了非度量尺度下的距离如何近似于差异(蓝色圆圈围绕红线的散点),而差异反映了不相似性的等级(红线是非线性的,但在增加)。将此图与来自度量尺度的Shepard图进行比较,显示了两种方法的差异。非度量尺度不是试图重建原始的差异,而是它们的非线性转换(差异)。

在这样做的过程中,非度量尺度缩放做出了权衡:非度量距离更好地再现了差异,而非度量距离再现了差异——这个图中的散点比度量图中的散点小。然而,作为不同的函数,差异是相当非线性的。因此,虽然我们可以更确定地使用非度量解决方案,可视化中的小距离对应于数据中的小差异,但重要的是要记住,可视化中点之间的绝对距离不应该太字面上理解——只是相对距离。

3D中的非度量缩放

因为2D结构中的应力有点高,我们可以尝试3D配置。

[Y,应力,差异]= mdscale(差异,3);压力
应力= 0.1189

这个应力值相当低,表明适合度更好。我们可以在三维空间中画出构型。一个实时MATLAB®图形可以交互式旋转;在这里,我们将就从两个不同的角度看问题。

plot3 (Y (: 1), Y (:, 2), Y (:, 3),“。”“标记”“没有”);文本(Y (: 1), Y (:, 2), Y (:, 3), char (morseChars (:, 2)),“颜色”“b”...“字形大小”12“FontWeight”“大胆”“HorizontalAlignment”“中心”);集(gca),“XTickLabel”[],“YTickLabel”[],“ZTickLabel”[]);标题(Rothkopf莫尔斯电码数据的非度量MDS解决方案);59岁的视图(18);网格

图中包含一个轴对象。带有标题的axes对象包含37个类型为行、文本的对象。

从这个角度,我们可以看到,具有一、二符号信号的字符与具有较长信号的字符之间分离得很好,而且彼此之间也分离得很好,因为它们最容易区分。如果我们将视图旋转到不同的角度,我们可以看到较长的字符,就像在2D配置中一样,可以粗略地用符号的数量和点或破折号的数量来描述。(从第二个角度来看,一些较短的汉字似乎是夹杂在较长的汉字中。)

视图(9 8);

图中包含一个轴对象。带有标题的axes对象包含37个类型为行、文本的对象。

这种3D结构比2D结构更准确地重建了距离,然而,信息本质上是相同的:受试者主要是根据信号包含多少符号,以及有多少点和破折号来感知信号的。在实践中,2D配置可能是完全可以接受的。