T-SNE - MATLAB＆金宝appSIMULINK - 金宝app,下载188bet金宝搏,金宝搏官方网站

T-SNE.

什么是t-sne？

t-sne（tsne)是一种非常适合于可视化高维数据的降维算法。这个名字代表t-分布式随机邻居嵌入。其思想是将高维点嵌入到低维中，同时考虑点之间的相似性。高维空间中的近点对应于附近嵌入的低维点，高维空间中的远点对应于远处嵌入的低维点。(通常，不可能精确匹配高维和低维空间之间的距离。)

的tsne函数从高维数据创建一组低维点。通常，您可以可视化低维点，以查看原始高维数据中的自然集群。

该算法采用以下一般步骤来嵌入低维度的数据。

计算高维点之间的成对距离。
创建一个标准偏差σ_我对于每个高维点我这样困惑每个点都在一个预定的水平。关于困惑的定义，请看计算距离，高斯差异和相似之处．
计算相似性矩阵．这是X的联合概率分布，由方程1．
创建初始的低维点集。
迭代地更新低维点，以最小化高尺空间中高斯分布之间的kullback-leibler发散t在低维空间中的分布。这个优化过程是算法中最耗时的部分。

去找范德马顿和辛顿［1］．

t-SNE算法

基本T-SNE算法执行以下步骤。

准备数据
计算距离，高斯差异和相似之处
初始化嵌入和散度
Kullback-Leibler散度的梯度下降

准备数据

tsne首先删除包含任意的输入数据X的每一行南值。然后,如果标准化名称值对是真的，tsne通过减去每列的平均值来递减X，并通过标准偏差除以列来缩放X。

最初的作者范德马顿和辛顿［1］建议将原始数据x减少到低维版本主成分分析(PCA)．你可以设置tsnenumpcacomomonents.名称-值对的维度数，可能是50。要对这一步进行更多的控制，可以使用主成分分析函数。

计算距离，高斯差异和相似之处

预处理后,tsne计算距离d（x_我，x_j）每对点之间x_我和x_j在x中，您可以使用距离名称-值对。默认情况下,tsne使用标准欧几里德公制。tsne在其后续计算中使用距离度量的平方。

然后为每一行我(X)tsne计算标准偏差σ_我这样困惑的行我等于困惑名称-值对。perplexity是用模型高斯分布定义的，如下所示。范德马顿和辛顿［1］描述，“数据点的相似性x_j到数据点x_我为条件概率， $p_{j | 我}$ ,这x_我会选择x_j作为它的邻居，如果邻居是根据它们的概率密度在高斯中心x_我．对于附近的数据点， $p_{j | 我}$ 相对较高，而对于广泛分离的数据点， $p_{j | 我}$ 几乎是无穷小的(对于高斯分布方差的合理值，σ_我)。”

定义的条件概率j给予我作为

$\begin{array}{l} p_{j | 我} ＝ \frac{exp. （ - d {（ x_{我} ， x_{j} ）}^{2} / （ 2 σ_{我}^{2} ））}{\underset{k \neq 我}{σ.} exp. （ - d {（ x_{我} ， x_{k} ）}^{2} / （ 2 σ_{我}^{2} ））} \\ p_{我 | 我} ＝ 0。 \end{array}$

然后定义联合概率p_ij通过对称条件概率:

p_{我 j} ＝ \frac{p_{j | 我} + p_{我 | j}}{2 N} ，

（1）

在哪里N是X的行数。

这些分布仍然没有标准差σ_我定义为困惑名称-值对。让P_我表示给定数据点的所有其他数据点的条件概率分布x_我．分布的复杂之处在于

$困惑（ P_{我} ）＝ 2^{H （ P_{我} ）} ，$

在哪里H（P_我）Shannon熵是P_我：

$H （ P_{我} ）＝ - \underset{j}{σ.} p_{j | 我} {日志}_{2} （ p_{j | 我} ）．$

复杂度度量的是点的有效邻域数我．tsne对象上执行二进制搜索σ_我为每一点实现一个固定的困惑我．

初始化嵌入和散度

为了将X中的点嵌入低维空间，tsne执行优化。tsne试图最小化X和一个学生点的模型高斯分布之间的Kullback-Leibler发散t点Y在低维空间中的分布。

最小化过程从一个初始点Y集合开始。tsne默认情况下创建随机高斯分布点。你也可以自己创建这些点，并将它们包含在'initialy'名称 - 值对tsne．tsne然后计算Y中每对点之间的相似性。

的概率模型问_ij点之间的距离分布y_我和y_j是

$\begin{array}{l} 问_{我 j} ＝ \frac{{（ 1 + {‖ y_{我} - y_{j} ‖}^{2} ）}^{- 1}}{\underset{k}{σ.} \underset{l \neq k}{σ.} {（ 1 + {‖ y_{k} - y_{l} ‖}^{2} ）}^{- 1}} \\ 问_{我我} ＝ 0。 \end{array}$

利用这个定义和X中的距离模型方程1，Kullback-Leibler在联合分布之间发散P和问是

$K l （ P | | 问）＝ \underset{j}{σ.} \underset{我 \neq j}{σ.} p_{我 j} 日志 \frac{p_{我 j}}{问_{我 j}} ．$

关于这个定义的结果，请参见有用的非线性失真．

Kullback-Leibler散度的梯度下降

尽量减少kullback-leibler发散，即'精确的'算法采用改进的梯度下降过程。散度在Y上的梯度是

$\frac{\partial K l （ P | | 问）}{\partial y_{我}} ＝ 4 \underset{j \neq 我}{σ.} Z （ p_{我 j} - 问_{我 j} ）问_{我 j} （ y_{我} - y_{j} ），$

归一化术语的地方

$Z ＝ \underset{k}{σ.} \underset{l \neq k}{σ.} {（ 1 + {‖ y_{k} - y_{l} ‖}^{2} ）}^{- 1} ．$

改进的梯度下降算法使用了一些调整参数，试图达到一个良好的局部最小值。

“夸张”-在前99个梯度下降步骤，tsne乘以概率p_ij从方程1被夸大的价值。这一步往往会在输出Y中的集群之间创建更多的空间。
“LearnRate”- - - - - -tsne使用自适应学习来提高梯度下降迭代的融合。下降算法具有迭代步骤，其是下降和当前梯度的前一步的线性组合。“LearnRate”是线性组合的当前梯度的乘数。有关详细信息，请参阅jacobs[３]．

t-SNE的Barnes-Hut变异

加快T-SNE算法并减少其内存使用情况，tsne提供近似优化方案。Barnes-Hut算法在一起的算法组在一起，以降低T-SNE优化步骤的复杂性和内存使用情况。Barnes-Hut算法是一个近似优化器，而不是精确的优化器。有一个非负调整参数θ.这影响了速度和准确性之间的权衡。更大的值“θ”给出更快但不太准确的优化结果。该算法对算法相对不敏感“θ”范围内的值(0.2,0.8)。

Barnes-HUT算法在低维空间中附近的算法组，并基于这些组执行近似梯度下降。最初用于天体物理学的想法是梯度与附近点相似，因此可以简化计算。

见Van der Maaten[２]．

不能使用嵌入来对新数据进行分类

因为T-SNE经常将数据集群分开，因此T-SNE可以对新数据点进行分类。但是，T-SNE无法分类新点。T-SNE嵌入是一个非线性映射，它依赖于数据。要在低维空间中嵌入新的点，您无法使用以前的嵌入作为地图。相反，再次运行整个算法。

性能取决于数据大小和算法

t-SNE处理数据需要很长时间。如果你有N数据点在D您想要映射到的尺寸Y尺寸，然后

t-SNE是有序的D＊N²操作。
Barnes-Hut t-SNE开始有序运作D＊N日志(N) * exp(维度(Y)）操作。

对于大的数据集N大于1000左右，嵌入维数在哪里Y是2或3,Barnes-Hut算法可以比精确算法更快。

有用的非线性失真

打开直播脚本

T-SNE将高维距离映射到扭曲的低维类似物。因为那个学生的尾巴比较肥t低维空间的分布，tsne通常将近距离移动近距离移动，并且远远超过比高维空间更远的点，如下图所示。该图显示了高斯和学生t在密度为0.25和0.025点处的分布。高斯密度与高维距离有关t密度与低维距离有关。的t与高斯密度相比，密度对应于闭点更近，远点更远。

t = linspace (0 5);日元= normpdf (t, 0,1);y2 = tpdf (t, 1);情节(t, y1,“k”，t，y2，“r”） 抓住在x1 = fzero (@ (x) normpdf (x, 0,1) -0.25, (0, 2));x2 = fzero (@ (x) tpdf (x, 1) -0.25 (0, 2));z1 = fzero (@ (x) normpdf (x, 0,1) -0.025, [0, 5]);z2 = fzero (@ (x) tpdf (x, 1) -0.025, [0, 5]);情节([0 x1], [0.25, 0.25],“k -”。）图（[0，Z2]，[0.025,0.025]，“k -”。）图（[x1，x1]，[0,0.25]，'G-'，[x2，x2]，[0,0.25]，'G-')图((z1, z1), [0, 0.025],'G-', (z2, z2], [0, 0.025],'G-')文本(1.1,二十五分,Close point在low-D中更接近)文本(2.4、0。'远的点在低D'中更远） 传奇（'高斯（0,1）'，'学生t（df = 1）'）xlabel（“x”）ylabel（'密度')标题('高斯分布密度(0,1)和学生t (df = 1)'） 抓住离开