经典多维标度应用于非空间距离

打开生活的脚本

这个例子展示了如何执行经典多维标度使用cmdscale函数统计和机器学习的工具箱™。经典多维标度,也叫做主坐标分析,需要一个矩阵interpoint距离,并创建一个配置点。理想情况下,这些点可以在两个或三个维度,构建以及它们之间的欧几里得距离大约复制原始的距离矩阵。因此,这些点的散点图提供了一个可视化表示最初的距离。

这个例子说明了应用多维标度空间距离以外的不同措施,并展示了如何构建一个配置点的可视化这些相异。

这个例子描述了经典多维标度。的mdscale函数执行模MDS,有时比经典的方法更加灵活。模MDS中描述模多维标度的例子。

从非空间重构空间位置的距离

假设你有测量了基因“距离”,或不同,许多当地的亚种群之间的一种动物。你也知道他们的地理位置,并且想知道如何密切遗传和空间距离相对应。如果他们这样做,这是证据表明亚种群之间的杂交受地理位置的影响。

下面是亚种群的空间位置,和遗传距离矩阵的upper-triangle矢量格式由相同pdist。

X = [39.1 - 18.7;40.7 - 21.2;41.5 - 21.5;39.2 - 21.8;38.7 - 20.6;41.7 - 20.1;40.1 - 22.1;39.2 - 21.6);D = [4.69 6.79 3.50 3.11 4.46 5.57 - 3.00…2.10 2.27 2.65 2.36 1.99 1.74…3.78 4.53 2.83 2.44 3.79…1.98 4.35 2.07 0.53…3.80 3.31 1.47…4.35 - 3.82…2.57);

尽管这个矢量格式D是空间,常常很容易看到的距离关系如果你重新格式化一个方阵的距离。

squareform (D)

ans =8×80 4.6900 6.7900 3.5000 3.1100 4.4600 5.5700 3.0000 4.6900 2.1000 2.2700 2.6500 2.3600 1.9900 1.7400 6.7900 2.1000 3.7800 4.5300 2.8300 2.4400 3.7900 3.5000 2.2700 3.7800 0 0 1.9800 4.3500 2.0700 0.5300 3.1100 2.6500 4.5300 1.9800 3.8000 3.3100 1.4700 4.4600 2.3600 2.8300 4.3500 3.8000 4.3500 3.8200 5.5700 1.9900 2.4400 2.0700 3.3100 4.3500 0 2.5700 3.0000 1.7400 3.7900 0.5300 1.4700 3.8200 2.5700 0

cmdscale两种格式的识别。

[Y, eigvals] = cmdscale (D);

cmdscale的第一个输出,Y,一个矩阵点创建interpoint再现距离的距离D。有八个物种,点(行Y)可以有多达8个维度(列Y)。可视化的遗传距离取决于使用点只有两个或三个维度。幸运的是,cmdscale的第二个输出,eigvals,是一组有序的特征值的相对大小指示你可以安全地使用多少尺寸。如果只有前两个或三个特征值很大,然后只有这些点的坐标Y需要准确地再现D。如果超过三个特征值大,那么是不可能找到一个好的低维的配置点,和想象的距离并非易事。

[eigvals eigvals / max (abs (eigvals)))

ans =8×229.0371 1.0000 13.5746 0.4675 2.0987 0.0723 0.7418 0.0255 0.3403 0.0117 0.0000 0.0000 -0.4542 -0.0156 -3.1755 -0.1094

注意,只有两个大积极的特征值,由这样的配置点cmdscale可以绘制二维。两个负特征值表明,遗传距离不是欧几里德,也就是说,没有点可以繁殖的配置D完全正确。幸运的是,负特征值很小最大相对积极的,和前两列的减少Y应该是相当准确的。你可以检查这个通过观察二维之间的误差距离配置和原来的距离。

maxrelerr = max (abs (D - pdist (Y (: 1:2)))) / max (D)

maxrelerr = 0.1335

现在,您可以创建的“基因位置”进行比较cmdscale到实际的地理位置。因为返回的配置cmdscale到是惟一的平移、旋转和反射,基因位置可能不会与地理位置相匹配。他们也会有错误的规模。但是你可以使用普罗克汝斯忒斯命令匹配两套点最小二乘意义上的最好的。

普罗克汝斯忒斯[D、Z] = (X, Y (: 1:2));情节(X (: 1) X (:, 2),“波”Z (: 1)、Z (:, 2),“路”);标签= num2str ((1:8) ');文本(X (: 1) + 0。, X(:, 2),标签,“颜色”,“b”);文本(Z (: 1) + 0。, Z(:, 2),标签,“颜色”,“r”);包含(东部的距离参考点(公里));ylabel (参考点的距离北(公里));传奇({的空间位置,构建基因位置的},“位置”,“本身”);

图包含一个坐标轴对象。坐标轴对象包含18行类型的对象,文本。这些对象代表空间位置,构建基因的位置。

这个图显示重建的最佳匹配点坐标与实际空间位置。显然,遗传距离有一个紧密联系的亚种群之间的空间距离。

想象一个使用多维标度的相关矩阵

假设你有以下相关矩阵计算一组10变量。很明显,这些变量都是呈正相关的,成对,有很强的相关性。但这许多变量,不容易得到一个好的感觉,所有10个之间的关系。

ρ=…[1 0.3906 0.3746 0.3318 0.4141 0.4279 0.4216 - 0.4703 0.4362 - 0.2066;0.3906 - 1 0.3200 0.3629 0.2211 0.9520 0.9811 0.9052 0.4567 0;1 0.3746 0.3200 0.8993 0.7999 0.3589 0.3460 0.3333 0.8639 0.6527;1 0.3318 0.3629 0.8993 0.7125 0.3959 0.3663 0.3394 0.8719 - 0.5726;0.2374 0.2079 0.2335 0.7050 0.7469 0.4141 0.2211 0.7999 0.7125 1;1 0.4279 0.9520 0.3589 0.3959 0.2374 0.9657 0.9363 0.4791 0.0254;1 0.4216 0.9811 0.3460 0.3663 0.2079 0.9657 0.9123 0.4554 - 0.0011;0.4703 0.9052 0.3333 0.3394 0.2335 - 0.9363 0.4418 - 0.0099 0.9123 - 1;0.4362 0.4567 0.8639 0.8719 0.5272 0.7050 0.4791 0.4554 0.4418 1;0.2066 0 0.6527 0.5726 0.7469 0.0254 0.0011 0.0099 0.5272 1);

多维标度通常被认为是一种(重新)构造点只使用成对的距离。但也可以使用不同的措施比距离更一般,空间想象的东西不是通常意义上的“点空间”。ρ描述的变量是一个例子,您可以使用cmdscale绘制可视化表示他们的相互依赖关系。

实际上相关措施相似,但它很容易变换不同的措施。因为所有的相关性是积极的,您可以简单地使用

D = 1 -ρ;

虽然其他的选择也可能是有意义的。如果ρ包含负相关性,你将不得不决定,例如,1表示或多或少的相关性比0的相关性不同,并选择相应的转换。

决定是否很重要的可视化相关矩阵中的信息甚至是可能的,也就是说,维度的数量是否可以减少从十到两个或三个。返回的特征值cmdscale给你一个决定。在这种情况下,一块小石子的特征值表明两个维度足以代表变量。(请注意,下面的情节的一些特征值是负的,但相对于前两个小。)

[Y, eigvals] = cmdscale (D);阴谋(1:长度(eigvals) eigvals,“bo - - - - - -”);线([1,长度(eigvals)], [0 0),“线型”,“:”,“XLimInclude”,“关闭”,…“颜色”,(。7 7 7])轴([1,长度(eigvals)、min (eigvals)、马克斯(eigvals) * 1.1]);包含(的特征值数量);ylabel (“特征值”);

图包含一个坐标轴对象。坐标轴对象包含2线类型的对象。

在一组更独立的变量,可能需要更多的维度。如果需要超过三个变量,可视化并不有用。

一个二维块返回的配置cmdscale表明有两个变量的子集最密切相关,加上一个单变量或多或少的。集群的紧张,而另一个是相对宽松。

标签= {' 1 ',' 2 ',“3”,“4”,“5”,“6”,“7”,“8”,“9”,“十”};情节(Y (: 1), Y (:, 2),“软”);轴(max (max (abs (Y))) * (-1.1, 1.1, -1.1, 1.1));轴(“广场”);文本(Y (: 1), Y(:, 2),标签,“HorizontalAlignment”,“左”);线([1],[0 0),“XLimInclude”,“关闭”,“颜色”,(。7 7 7])线([0 0],[1],“YLimInclude”,“关闭”,“颜色”,(。7 7 7])

图包含一个坐标轴对象。坐标轴对象包含13线类型的对象,文本。

另一方面,的结果cmdscale下列相关矩阵表示不同的结构:没有真正的团体之间的变量。相反,有一种“循环”的依赖,在每个变量都有一双“最亲密的邻居”,但不太好与剩余的变量。

ρ=…[1 0.7946 0.1760 0.2560 0.7818 0.4496 0.2732 - 0.3995 0.5305 - 0.2827;0.7946 - 1 0.1626 0.4227 0.5674 0.6183 0.4004 0.2283 0.3495 0.2777;1 0.1760 0.1626 0.2644 0.1864 0.1859 0.4330 0.4656 0.3947 0.8057;0 1 0.2560 0.4227 0.2644 0.1017 0.7426 0.8340 0.0499 0.4853;0.2733 0.1484 0.4890 0.6138 0.2025 0.7818 0.5674 0.1864 0.1017 1;1 0.4496 0.6183 0.1859 0.7426 0.2733 0.6303 0.0648 0.1035 0.3242;1 0.2732 0.4004 0.4330 0.8340 0.1484 0.6303 0.1444 0.1357 - 0.6291;0 0.4890 0.0648 0.1444 1 0.3995 0.2283 0.4656 0.8599 0.3948;0.5305 0.3495 0.3947 0.0499 0.3100 0.6138 0.1035 0.1357 0.8599 1;0.2827 0.2777 0.8057 0.4853 0.2025 0.3242 0.6291 0.3948 0.3100 1); [Y,eigvals] = cmdscale(1-Rho); [eigvals eigvals./max(abs(eigvals))]

ans =10×21.1416 1.0000 0.7742 0.6782 0.0335 0.0294 0.0280 0.0245 0.0239 0.0210 0.0075 0.0066 0.0046 0.0040 -0.0000 -0.0000 -0.0151 -0.0132 -0.0472 -0.0413

情节(Y (: 1), Y (:, 2),“软”);轴(max (max (abs (Y))) * (-1.1, 1.1, -1.1, 1.1));轴(“广场”);文本(Y (: 1), Y(:, 2),标签,“HorizontalAlignment”,“左”);线([0 0],[1],“XLimInclude”,“关闭”,“颜色”,(。7 7 7])线([1],[0 0),“YLimInclude”,“关闭”,“颜色”,(。7 7 7])

图包含一个坐标轴对象。坐标轴对象包含13线类型的对象,文本。

一个比较经典的主成分分析和多维标度

多维标度是最常用的可视化数据只有他们的距离或可用的异同。然而,当原始数据是可用的,多维标度也可以用作降维方法,通过减少数据距离矩阵,创建一个新配置的点使用cmdscale,只保留这些点的头几个维度。这个应用程序的多维标度非常类似于主成分分析,事实上,当你调用cmdscale使用点之间的欧几里得距离,结果与主成分分析,改变的迹象。

n = 10;m = 5;X = randn (n, m);D = pdist (X,“欧几里得”);[Y, eigvals] = cmdscale (D);(电脑,分数,潜在的)= pca (X);Y

Y =10×5-1.4505 1.6602 0.8106 0.5834 0.5952 2.6140 -1.0513 -1.1962 0.7221 -0.2299 -2.2399 -1.6699 -0.7881 -0.6659 0.0398 -0.4956 0.2265 1.2682 -0.5123 -0.5702 0.1004 -2.3659 1.2672 0.4837 -0.2888 -2.5996 1.0635 -0.8532 0.1392 -0.1216 -1.5565 0.4215 -0.0931 0.2863 0.0299 0.4656 -0.6250 -0.7608 -0.3233 0.2786 2.3961 2.6933 -0.2020 -0.2572 -0.4374 2.7660 -0.3529 0.5474 -0.4560 0.7044

分数

分数=10×5-1.4505 1.6602 -0.8106 -0.5834 -0.5952 2.6140 -1.0513 1.1962 -0.7221 0.2299 -2.2399 -1.6699 0.7881 0.6659 -0.0398 -0.4956 0.2265 -1.2682 0.5123 0.5702 0.1004 -2.3659 -1.2672 -0.4837 0.2888 -2.5996 1.0635 0.8532 -0.1392 0.1216 -1.5565 0.4215 0.0931 -0.2863 -0.0299 0.4656 -0.6250 0.7608 0.3233 -0.2786 2.3961 2.6933 0.2020 0.2572 0.4374 2.7660 -0.3529 -0.5474 0.4560 -0.7044

甚至非零特征值是相同的比例因子。

[eigvals (1: m) (n - 1) *潜伏]

ans =5×236.9993 36.9993 21.3766 21.3766 7.5792 7.5792 2.2815 2.2815 1.5981 1.5981