多元数据可视化

打开脚本

这个例子展示了如何使用各种统计多元数据可视化情节。许多统计分析只涉及两个变量:一个预测变量和响应变量。这些数据很容易想象使用二维散点图,二维直方图,箱线图,等等。也可以想象小数据与三维散点图,或二维散点图里,第三个变量的编码,例如颜色。然而,许多数据集包含大量的变量,直接可视化更加困难。这个例子中探索一些方法将高维数据可视化的MATLAB®,使用统计和机器学习的工具箱™。

在这个例子中,我们将使用carbig数据集,数据集,其中包含各种测量变量大约从1970年和1980年的400辆汽车。我们将说明多元可视化使用燃油效率的值(在英里每加仑,MPG),加速度(sec)完成时间,发动机排量(立方英寸),体重,和马力。我们将使用气缸数进行分组观察。

负载carbigX = [MPG、加速度、位移、重量、马力);varNames = {“英里”;“加速”;“位移”;“重量”;“马力”};

散点图矩阵

查看片通过低维子空间是一种部分解决两个或三个维度的限制。例如,我们可以使用gplotmatrix函数显示数组的所有二元五变量之间的散点图,以及每个变量的单变量的直方图。

图gplotmatrix (X,[],气缸,“c”“b”“米”‘g’“r”],[][],假);文本([。08年.24点。点),repmat(约1 5),varNames,“字形大小”8);文本(repmat(点1 5),(。86 .62 .41点二十五分02],varNames,“字形大小”8“旋转”,90);

每个散点图中的点的颜色由气缸数:蓝色的4缸,绿色为6,红色为8。也有少数5缸的汽车,和rotary-engined汽车列出3缸。这个数组的情节很容易挑出模式对变量之间的关系。然而,可能会有重要的模式在更高的维度,这是不容易认识到在这个阴谋。

平行坐标图

散点图矩阵只显示二元关系。然而,还有其他的选择,显示所有的变量,允许您对高维变量之间的关系进行调查。最直接的多元图是平行坐标图。在这个情节,坐标轴都是水平布局,而不是使用正交轴在通常的笛卡尔坐标图。每个观测情节中表示为一系列线段连接。例如,我们可以做一个情节的所有汽车4、6或8缸,和颜色的观察组。

Cyl468 = ismember(汽缸、[4 6 8]);parallelcoords (X (Cyl468:)“集团”气缸(Cyl468),…“标准化”,“上”,“标签”varNames)

这个情节的水平方向代表了坐标轴,和垂直方向代表了数据。每个观测由测量的五个变量,每个测量的高度表示为相应的线穿过每个坐标轴。因为五个变量有广泛不同的范围,这个情节是由标准化值,每个变量已经标准化的零均值和单位方差。颜色编码,图像显示,例如,8缸汽车通常MPG和加速度值较低,为位移和高值,重量,马力。

即使有颜色编码组,平行坐标图与大量的观察很难阅读。我们也可以做一个平行坐标图,只有中间值和四分位数(25%和75%)为每个组。这是典型的组间差异和相似之处更容易区分。另一方面,它可能是最有趣的每个组的异常值,这情节根本不给他们。

parallelcoords (X (Cyl468:)“集团”气缸(Cyl468),…“标准化”,“上”,“标签”varNames,分位数的或25)

安德鲁斯情节

另一个类似的多元可视化是安德鲁斯阴谋。这个情节代表每个观察作为一个光滑函数在区间[0,1]。

andrewsplot (X (Cyl468:)“集团”气缸(Cyl468),“标准化”,“上”)

每个函数的傅里叶级数,系数等于相应的观测值。在这个例子中,该系列有五个方面:一个常数,两个正弦与周期1又1/2,两个相似的余弦。影响函数的形状由于三大方面是最明显的在安德鲁斯的阴谋,所以模式在前三个变量往往是最容易认出的。

团体之间有一个明显的差别在t = 0时,表明第一个变量,英里,是4之间的特色之一,6和8缸的汽车。更有趣的是三组之间的差异在t = 1/3左右。将这个值插入安德鲁斯的公式绘制函数,得到一组系数,定义一个变量的线性组合,区分群体。

t1 = 1/3;(1 /√(2)罪(2 *π* t1)因为(2 *π* t1)罪(4 *π* t1)因为(4 *π* t1))

ans = 0.7071 0.8660 -0.5000 -0.8660 - -0.5000

从这些系数,我们可以看到一种区分4缸车从8缸车是前MPG和加速度值更高和更低的位移值,马力,特别是重量,而后者恰恰相反。这是我们从相同的结论平行坐标图。

字形的情节

多元数据可视化的另一种方法是使用“符号”来表示维度。这个函数glyphplot金宝app支持两种类型的符号:星星,切尔诺夫的脸。例如,这是一个明星的第一个9模型在车里的数据。每个说话的星代表一个变量,发言的长度成正比,变量的值的观察。

h = glyphplot (X (1:9,:)“字形”,“星”,“varLabels”varNames,“obslabels”、模型(1:9,:));集(h (:, 3),“字形大小”8);

在图窗口现场MATLAB,该地块将允许交互式探索数据的值,使用数据游标。例如,点击右边的星星点福特都灵将表明,它有一个17英里/加仑价值。

字形情节和多维标度

策划恒星在一个网格,没有特定的顺序,可能导致这一数字是令人困惑的,因为邻近恒星最终可能相当或。因此,可能没有光滑的眼睛捕捉模式。通常是有用的结合多维标度(MDS)字形阴谋。为了说明这一点,我们首先选择所有汽车从1977年开始,并使用zscore函数标准化每个五个变量的零均值和单位方差。然后我们计算这些标准化的观察之间的欧几里得距离来衡量不同。这个选择可能太简单的在真实的应用程序,但这里是为了说明。

找models77 = ((Model_Year = = 77));不同= pdist (zscore (X (models77,:)));

最后,我们使用mdscale创建一组位置的两个维度interpoint距离近似原始高维数据之间的异同,并使用这些位置绘制符号。这个二维的距离大致情节只能复制数据,但对于这种类型的情节,这是不够好。

Y = mdscale(不同,2);glyphplot (X (models77:)“字形”,“星”,“中心”,Y,…“varLabels”varNames,“obslabels”模型(models77:),“半径”5);标题(“1977年”);

在这个图中,我们已经使用MDS的降维方法,创建一个二维图。通常这意味着损失的信息,但是通过绘制符号,我们已经将所有的高维数据中的信息。使用MDS的目的是对某种规律性的变化数据,以便在符号模式更容易看到。

正如前面的情节,交互式探索可能在现场图窗口。

另一种类型的字形是切尔诺夫的脸。这个字形编码数据值对于每个观测到面部特征,如脸的大小、形状的脸,眼睛的位置等。

glyphplot (X (models77:)“字形”,“脸”,“中心”,Y,…“varLabels”varNames,“obslabels”模型(models77:));标题(“1977年”);

这里,最明显的两个特性,面对大小和相对额头下巴/大小,编码MPG和加速度,额头和下巴形状编码位移和重量。眼睛之间的宽度编码马力。值得注意的是,有一些面孔宽额头和狭窄的下巴,或者相反,表明积极的位移和体重的变量之间的线性相关。这也是我们看到的散点图矩阵。

特征变量的对应关系决定了关系是最容易看到的,和glyphplot允许选择容易被改变。

关闭