集群使用LDA模型可视化文档

这个例子展示了如何可视化聚类的文档使用潜在狄利克雷分配(LDA)主题模型和t-SNE阴谋。

潜在狄利克雷分配(LDA)模型是一个话题模型,发现潜在主题的集合文件和推断单词概率在主题。每个主题单词的矢量概率描述的主题。您可以使用一个评估文档相似性LDA模型通过比较每个文档主题概率,也称为主题混合物。

负载LDA模型

负载LDA模型factoryReportsLDAModel使用数据集训练的工厂报告详细说明不同的失败事件。一个例子,演示如何适应一个LDA模型到文本数据的集合,看到的使用主题模型分析文本数据。

负载factoryReportsLDAModelmdl

mdl = ldaModel属性:NumTopics: 7 WordConcentration: 1 TopicConcentration: 0.5755 CorpusTopicProbabilities: [0.1587 0.1573 0.1551 0.1534 0.1340 0.1322 0.1093] DocumentTopicProbabilities:[480×7双]TopicWordProbabilities:[158×7双]词汇:[1×158弦]TopicOrder:“initial-fit-probability”FitInfo: [1×1 struct]

使用词云可视化的话题。

numTopics = mdl.NumTopics;图tiledlayout (“流”)标题(“LDA的话题”)为i = 1: numTopics nexttile wordcloud (mdl,我);标题(“主题”+ i)结束

可视化文档使用t-SNE集群

t-distributed随机邻居嵌入(t-SNE)项目高维向量算法二维空间。这种嵌入使得很容易想象高维向量之间的相似度。通过绘制文档主题混合物根据t-SNE算法,您可以可视化聚类相似的文档。

项目主题的混合物DocumentTopicProbabilties属性到二维空间使用tsne函数。

XY = tsne (mdl.DocumentTopicProbabilities);

对于情节组,确定主题为每个文档。

[~,topTopics] = max (mdl.DocumentTopicProbabilities [], 2);

对于情节标签,找到三个字为每个主题。

为i = 1: numTopics顶级= topkwords (mdl 3 i);topWords (i) =加入(top.Word,”、“);结束

情节预计主题混合使用gscatter函数。指定主题顶部作为分组变量和显示一个传奇与每个主题的最热门词汇。

图gscatter (XY (: 1), XY (:, 2), topTopics)标题(“主题混合”)传说(topWords…位置=“southoutside”,…NumColumns = 2)

t-SNE情节强调集群发生在原始高维数据。

另请参阅

tokenizedDocument|fitlda|ldaModel|wordcloud

集群使用LDA模型可视化文档

负载LDA模型

可视化文档使用t-SNE集群

另请参阅

相关的话题