t-SNE

t-SNE是什么?

t-SNE (tsne)是一种降维算法,适合高维数据可视化。这个名字代表t分布式随机邻居嵌入。这个想法是在低嵌入高维分维度的方式方面相似点。附近的点在高维空间中对应于附近的低维嵌入点,和遥远的点在高维空间中对应于遥远的嵌入低维点。(一般来说,是不可能匹配之间的距离完全高维和低维空间)。

的tsne函数创建一组高维数据的低维点。通常,你想象的低维点自然集群在原始的高维数据。

该算法需要下面的一般步骤嵌入低维的数据。

计算两两之间的距离高维点。
创建一个标准偏差σ_我为每一个高维点我这样困惑每一个点是在预定的水平。困惑的定义,请参阅计算距离,高斯方差和相似之处。
计算相似度矩阵。这是X的联合概率分布,通过定义方程1。
创建一组初始的低维点。
迭代更新低维指向最小化Kullback-Leibler背离高维空间和一个高斯分布t分布在低维空间。这个优化过程中最耗时的部分算法。

看到van der Maaten和辛顿[1]。

t-SNE算法

基本t-SNE算法执行以下步骤。

准备数据

tsne首先删除输入的每一行数据包含任何X南值。然后,如果标准化名称-值对是真正的,tsne中心X,减去每一列的均值和尺度X除以它的列的标准差。

原来的作者van der Maaten和辛顿[1]建议减少原始数据X使用低维版本主成分分析(PCA)。你可以设置tsneNumPCAComponents名称-值对的尺寸你喜欢,也许50。多运动控制这一步,预处理数据使用主成分分析函数。

计算距离,高斯方差和相似之处

预处理后,tsne计算距离d(x_我,x_j)每对点之间x_我和x_j在x你可以选择不同的距离度量使用距离名称-值对。默认情况下,tsne使用标准的欧几里得度量。tsne使用后续计算距离的度量。

然后为每一行我(X)tsne计算标准偏差σ_我这样困惑的行我等于困惑名称-值对。困惑是定义一个模型的高斯分布如下。van der Maaten和辛顿[1]描述,“数据的相似点x_j数据点x_我条件概率, $p_{j | 我}$ ,这x_我会选择x_j作为它的邻居如果邻居选择比例在高斯概率密度为中心x_我。附近的数据点, $p_{j | 我}$ 是相对较高的,而对于广泛分离的数据点, $p_{j | 我}$ 几乎是无穷小(合理的高斯分布的方差值,σ_我)。”

定义的条件概率j鉴于我作为

$\begin{array}{l} p_{j | 我} = \frac{经验值 (- d {(x_{我}, x_{j})}^{2} / (2 σ_{我}^{2}))}{\sum_{k \neq 我} 经验值 (- d {(x_{我}, x_{k})}^{2} / (2 σ_{我}^{2}))} \\ p_{我 | 我} = 0。 \end{array}$

然后定义联合概率p_ij通过使对称条件概率:

p_{我 j} = \frac{p_{j | 我} + p_{我 | j}}{2 N},

(1)

在哪里N是X的行数。

分布还没有他们的标准差σ_我定义的困惑名称-值对。让P_我代表了条件概率分布在所有其他数据点给定的数据点x_我。分布的困惑

$困惑 (P_{我}) = 2^{H (P_{我})},$

在哪里H(P_我)是香农熵P_我:

$H (P_{我}) = - \sum_{j} p_{j | 我} {日志}_{2} (p_{j | 我}) 。$

困惑的措施的有效数量的邻居我。tsne执行二进制搜索的σ_我实现为每个点一个固定的困惑我。

初始化嵌入和散度

嵌入点X到低维空间,tsne执行优化。tsne试图最小化Kullback-Leibler差异模型的高斯分布的点X和一个学生t点Y的分布在低维空间。

最小化过程始于一个初始点集Y。tsne创建点默认为随机系统点。您还可以创建这些点自己,包括他们“则”名称-值对的tsne。tsne然后计算每对点之间的相似性在Y。

的概率模型问_ij分布的点之间的距离y_我和y_j是

$\begin{array}{l} 问_{我 j} = \frac{{(1 + {为 y_{我} - y_{j} 为}^{2})}^{- 1}}{\sum_{k} \sum_{l \neq k} {(1 + {为 y_{k} - y_{l} 为}^{2})}^{- 1}} \\ 问_{我我} = 0。 \end{array}$

使用这个定义和模型的距离在X方程1,Kullback-Leibler联合分布之间的差异P和问是

$K l (P | | 问) = \sum_{j} \sum_{我 \neq j} p_{我 j} 日志 \frac{p_{我 j}}{问_{我 j}} 。$

这个定义的后果,明白了有用的非线性失真。

梯度下降的Kullback-Leibler散度

最小化Kullback-Leibler分歧,“准确”算法使用一个修改梯度下降过程。点的梯度对Y的散度

$\frac{\partial K l (P | | 问)}{\partial y_{我}} = 4 \sum_{j \neq 我} Z (p_{我 j} - 问_{我 j}) 问_{我 j} (y_{我} - y_{j}),$

标准化的术语

$Z = \sum_{k} \sum_{l \neq k} {(1 + {为 y_{k} - y_{l} 为}^{2})}^{- 1} 。$

修改后的梯度下降算法使用一些调优参数来试图达到一个良好的局部最小值。

“夸张”——99年在第一次梯度下降法的步骤,tsne繁殖的概率p_ij从方程1夸张的价值。这一步往往会创造更多的空间集群之间的输出Y。
“LearnRate”- - - - - -tsne使用自适应学习来提高梯度下降迭代的收敛性。下降算法的迭代步骤前一步的线性组合的血统和当前梯度。“LearnRate”是一个乘数电流梯度的线性组合。,雅各布斯[3]。

Barnes-Hut t-SNE变化

t-SNE算法速度和减少内存使用,tsne提供了一个近似的优化方案。Barnes-Hut算法一起组织附近的点降低的复杂性和内存使用量t-SNE优化步骤。Barnes-Hut算法是一个近似优化器,而不是一个确切的优化器。有一个负的调优参数θ影响速度和精度之间的权衡。更大的值“θ”给快但不准确的优化结果。该算法相对不敏感“θ”值的范围(0.2,0.8)。

Barnes-Hut算法组附近的点在低维空间中,并执行一个近似梯度下降法根据这些组。这个想法,最初用于天体物理学,是附近点的梯度是相似的,因此可以简化计算。

看到van der Maaten[2]。

t-SNE的特点

不能使用嵌入对新数据进行分类

因为t-SNE经常分离数据集群,它可以看起来t-SNE可以分类新数据点。然而,t-SNE不能分类的新观点。t-SNE嵌入是一个非线性映射,视。嵌入一个新的点在低维空间中,您不能使用之前的嵌入地图。相反,再次运行整个算法。

性能取决于数据的大小和算法

t-SNE可以花大量的时间来处理数据。如果你有N数据点在D要映射到的尺寸Y维度,然后

的确切t-SNE需要秩序D*N²操作。
Barnes-Hut t-SNE需要秩序D*N日志(N)* exp(维度(Y))操作。

对于大型数据集,N大于1000左右,嵌入维数Y2或3,Barnes-Hut算法可以比精确的算法。

有用的非线性失真

打开生活的脚本

T-SNE高维距离映射到扭曲的低维类似物。因为胖尾的学生t分布在低维空间中,tsne经常移动近点靠近,行动远比在高维空间点之间的距离,见下图。该图显示了高斯和学生t分布在点密度在0.25和0.025。高斯密度与高维距离,t密度与低维的距离有关。的t密度对应于近点接近,远点远,比高斯密度。

t = linspace (0 5);日元= normpdf (t, 0,1);y2 = tpdf (t, 1);情节(t, y1,“k”t y2,“r”)举行在x1 = fzero (@ (x) normpdf (x, 0,1) -0.25, (0, 2));x2 = fzero (@ (x) tpdf (x, 1) -0.25 (0, 2));z1 = fzero (@ (x) normpdf (x, 0,1) -0.025, [0, 5]);z2 = fzero (@ (x) tpdf (x, 1) -0.025, [0, 5]);情节([0 x1], [0.25, 0.25],“k -”。)情节([0,z2]、[0.025, 0.025],“k -”。)情节(x1, x1, [0, 0.25],“g -”(x2, x2), [0, 0.25],“g -”)图((z1, z1), [0, 0.025],“g -”,(z2, z2], [0, 0.025],“g -”)文本(1.1,二十五分,“低音d近点更近”)文本(2.4、0。“低音d远点远”)传说(“高斯(0,1)”,“学生t (df = 1)”)包含(“x”)ylabel (“密度”)标题(密度的高斯t(0, 1)和学生(df = 1)的)举行从