主要内容

模多维标度

此示例显示了如何使用非数据形式的多维缩放(MDS)可视化异化数据。

当我们有一组对象时,不同的数据就出现了,我们不能测量每个对象的特征,而只能测量每对对象的相似或不同程度。例如,我们可能只知道城市间的距离,而不知道一组城市的纬度和经度。然而,MDS也适用于比物理距离更抽象的不同之处。例如,我们可能要求消费者对不同品牌的花生酱的相似程度进行评分。

MDS的典型目标是创建一个一维、二维或三维的点配置,其点间距离“接近”原始差异。不同形式的MDS使用不同的标准来定义“接近”。这些点表示一组对象,因此点的绘图可以用作其不同之处的视觉表示。

“经典”MDS的一些应用在应用于非空间距离的经典多维尺度例子。

罗斯科普夫的莫尔斯码数据集

为了证明MDS,我们将使用在实验中收集的数据来调查摩尔斯码(Rothkopf,E.Z.,J.Exper.psych。,53(2):94-101)的感知。研究中的主题听了两个摩尔斯码信号(一个或多个“点的可听序列”和表示连续播放的36个字母数字字符),并且被问到信号是否相同或不同。受试者不知道莫尔斯电码。两种不同字符之间的不相似是正确区分这些字符的频率。

36x36相异矩阵存储为630个元素向量,包含矩阵的次对角元素。您可以使用该函数方形在矢量格式和完整矩阵形式之间转换。这是前5个字母及其异化,以矩阵形式重建。

负载莫尔斯Morsechars(1:5,:)
ans=5 x2细胞{'A'}{'.-'}{'B'}{'-.''}{'C'}{'-.-.'}{'D'}{'-.'''}{'E'}{'}
dissMatrix=方形(相异性);离散矩阵(1:5,1:5)
ans=5×50 167 169 159 180 167 0 96 79 163 169 96 0 141 166 159 79 141 0 172 180 163 166 172 0

在这些数据中,数值越大,说明更多的实验对象能够区分两种信号,因此信号之间的差异也就越大。

度量尺度

Metric MDS创建了一个点的配置,使得它们的点间距离近似于原始的不相似性。这个近似拟合优度的一个衡量标准是“应力”,这也是我们一开始要用到的。为了计算配置,我们提供mdscale函数具有不同的数据、我们希望在其中创建点的维数(两个)以及我们正在使用的拟合优度标准的名称。

y1 = mdscale(异维物,2,“标准”,'Metricstress'); 尺寸(Y1)
ans=1×236 2

mdscale在本例中,返回二维的点集。我们可以绘制它们,但在使用这个解决方案(即配置)来可视化数据之前,我们将绘制一些图来帮助检查从这个解决方案的间隔距离是否重新创建了原始的不相似性。

谢泼德图

Shepard图是插入点距离(有n(n-1)/2个)与原始差异的散点图。这有助于确定MDS解决方案的拟合优度。如果拟合较差,则可视化可能会产生误导,因为点之间的大(小)距离可能与数据中的大(小)差异不对应。在Shepard图中,围绕1:1线的窄散点表示距离与差异的良好匹配,而大散点或非线性模式表示不匹配。

距离1 = Pdist(Y1);情节(不同,距离1,'博',[0 200],[0 200],“k——”);包含(“相异”)ylabel(“距离”

图中包含一个axes对象。axes对象包含两个line类型的对象。

该图表明,二维度量解可能不合适,因为它既显示了非线性模式,又显示了较大的分散性。前者意味着许多最大的差异在视觉化过程中往往被夸大,而中等和小的差异则往往被低估。后者意味着可视化中的距离通常是差异性的不良反映。特别是,很大一部分巨大的差异将被严重低估。

比较度量标准

我们可以尝试使用三维来提高可视化的逼真度,因为随着自由度的增加,拟合度应该会提高。我们也可以尝试不同的标准。另外两个流行的度量标准是Sammon映射和平方应力(“sstress”)。每种方法都会导致不同的解决方案,其中一种方法在可视化原始差异方面可能更有用。

差异Y2 = mdscale (2“标准”,“马斯”); 距离2=pdist(Y2);Y3=mdscale(差异,2,“标准”,“metricsstress”); 距离s3=pdist(Y3);

Shepard图显示了迄今为止三种解决方案的差异。金宝搏官方网站

情节(不同,距离1,'博',...不同,距离2,'r +',...distances3相异,“g ^”,...200年[0],[0 200),“k——”);包含(“相异”)ylabel(“距离”) 传奇({“压力”,'sammon mapping',“方压力”},'地点',“西北”);

图中包含一个Axis对象。Axis对象包含4个line类型的对象。这些对象表示应力、Sammon映射和平方应力。

请注意,在最大不相似值的情况下,平方应力标准的散射趋于比其他两个标准更接近1:1线。因此,对于这些数据,方形压力在保持最大的不同方面有点更好,但它严重低估了一些。在较小的不相似性值下,Sammon映射标准的散射趋于与其他两个标准相比的1:1线稍微接近1:1。因此,Sammon Mapping在保留小异化时更好。压力在于两者之间。所有三个标准都显示了一定量的非线性,表明度量标准缩放可能不合适。但是,标准的选择取决于可视化的目标。

非微缩放

非更正的缩放是第二种形式的MD,其具有比度量标准缩放的较小雄心勃勃的目标。而不是尝试创建一对要对原始异化近似的点的配置,而不是尝试近似的非更换MDS的点。排名的不同。另一种说法是,非度量MDS创建了一个点的组态,这些点的间隔距离近似于a单调变换原始的异化。

这种结构的实际用途是,大的间隔距离对应大的差异,小的间隔距离对应小的差异。这通常足以传达所研究的项目或类别之间的关系。

首先,我们将在2D中创建点的配置。默认情况下,使用Kruskal的非度量应力标准进行非度量缩放mdscale

[Y,压力,差异]=mdscale(差异,2);压力
压力= 0.1800

第二个输出mdscale是使用标准的价值,作为解决方案如何重建异化的量度。较小的值表示更好的合适。对于非更加应力标准,这种结构的应力约为18%,被认为是差的。可接受标准值的范围因不同的标准而异。

第三次产出mdscale是被称为差异的矢量。这些只是异调的单调转变。它们将用于下面的非正常缩放Shepard Plot。

可视化不同数据

虽然这种合适并不像我们希望的那么好,但2D表示最容易想象。我们可以绘制每个信号的点和破折号来帮助了解为什么主题在角色之间感知差异。此配置的方向和规模完全是任意的,因此没有显示轴标签或值。

情节(Y (: 1), Y (:, 2),“。”,'标记',“没有”);文本(Y (: 1), Y (:, 2), char (morseChars (:, 2)),'颜色',“b”,...“字体大小”12“FontWeight”,“大胆”,“HorizontalAlignment”,“中心”);H_GCA = GCA;h_gca.xticklabel = [];h_gca.yticklabel = [];标题(“Rothkopf莫尔斯电码数据的非计量MDS解决方案”);

图中包含一个轴对象。轴对象的标题非度量MDS解决方案为Rothkopf的莫尔斯码数据包含37个对象的类型行,文本。

该重建表明,可以根据两个轴描述字符:粗略地说,西北/东南方向判别信号长度,而西南/东北方向判别从破折号中的点。具有最短信号,“e”和't'的两个字符在该解释中有点不在任何位置。

非度量谢泼德图

在非微量缩放中,习惯于显示差距以及谢泼德图中的距离。这提供了检查距离重新创建差异的程度的检查,以及如何从不同于不同的单调转换的非线性转换是多么的。

距离= pdist(y);[DUM,ORD] = Sortrows([差异(:)异化(:)]);情节(不同,距离,'博',...(奥德)的异同,差距(奥德),'r.-');包含(“相异”)ylabel(“距离/差距”) 传奇({“距离”“差异”},'地点',“西北”);

图中包含一个axes对象。axes对象包含两个line类型的对象。这些物体代表距离,差异。

这张图显示了非度量尺度下的距离如何近似差异(红线周围蓝色圆圈的散度),而差异反映了不同之处的等级(红线是非线性的,但在增加)。将此图与度量标度的Shepard图进行比较,可以看出两种方法的差异。非度量缩放不是试图重建原始的差异,而是它们(差异)的非线性转换。

在这样做的过程中,非度量尺度做了一个折衷:非度量距离比度量距离更好地再现差异——此图中的分散度小于度量图中的分散度。然而,作为差异的函数,差异是非常非线性的。因此,尽管我们可以更确定对于非计量解决方案,可视化中的小距离对应于数据中的小差异,重要的是要记住,可视化中点之间的绝对距离不应该太字面化,而应该是相对距离。

在3D中的非微量缩放

因为在2D结构中的压力有点高,我们可以尝试一个3D配置。

[Y、压力差异]= mdscale(相异,3);压力
压力= 0.1189.

这种应力值相当较低,表示更合适。我们可以在3个维度中绘制配置。LiveMATLAB®igky可以交互旋转;在这里,我们将满足于两种不同的角度。

Plot3(y(:,1),y(:,2),y(:,3),“。”,'标记',“没有”);文本(Y (: 1), Y (:, 2), Y (:, 3), char (morseChars (:, 2)),'颜色',“b”,...“字体大小”12“FontWeight”,“大胆”,“HorizontalAlignment”,“中心”);集(gca),“XTickLabel”,[],“YTickLabel”,[],“ZTickLabel”,[]);标题(“Rothkopf莫尔斯电码数据的非计量MDS解决方案”); 观点(59,18);网格

图中包含一个轴对象。轴对象的标题非度量MDS解决方案为Rothkopf的莫尔斯码数据包含37个对象的类型行,文本。

从这个角度我们可以看出,带有一符号和两符号信号的字符与带有较长的信号的字符是分开的,彼此之间也是分开的,因为它们是最容易区分的。如果我们将视图旋转到不同的角度,我们可以看到较长的角色,就像在2D配置中一样,可以用符号的数量和点或划的数量来描述。(从第二个角度来看,一些较短的角色似乎被较长的角色穿插在一起。)

查看(-9,8);

图中包含一个轴对象。轴对象的标题非度量MDS解决方案为Rothkopf的莫尔斯码数据包含37个对象的类型行,文本。

这种3D配置比2D配置更精确地重构距离,然而,信息基本上是相同的:受试者主要根据信号包含的符号数量以及点与虚线的数量来感知信号。实际上,2D配置可能是完全可以接受的。