主要内容

可视化LDA主题相关性

这个例子展示了如何分析话题之间的相关性在潜在狄利克雷分配模型(LDA)主题。

潜在狄利克雷分配(LDA)模型是一个话题模型,发现潜在主题的集合文件和推断单词概率在主题。每个主题单词的矢量概率描述的主题。使用每个主题词概率,可以识别的话题之间的相关性。

负载LDA模型

负载LDA模型factoryReportsLDAModel使用数据集训练的工厂报告详细说明不同的失败事件。一个例子,演示如何适应一个LDA模型到文本数据的集合,看到的使用主题模型分析文本数据

负载factoryReportsLDAModelmdl
mdl = ldaModel属性:NumTopics: 7 WordConcentration: 1 TopicConcentration: 0.5755 CorpusTopicProbabilities: [0.1587 0.1573 0.1551 0.1534 0.1340 0.1322 0.1093] DocumentTopicProbabilities: [480 x7双]TopicWordProbabilities: [158 x7双]词汇:(“项”“偶尔”“获得”“卡”“扫描仪”“轴”“大声”“活泼的”“声”“来”“汇编”“活塞”“切”“权力”“开始”“植物”“电容器”“搅拌机”…]TopicOrder:“initial-fit-probability”FitInfo: [1 x1 struct]

使用词云可视化的话题。

numTopics = mdl.NumTopics;图t = tiledlayout (“流”);标题(t)“LDA的话题”)i = 1: numTopics nexttile wordcloud (mdl,我);标题(“主题”+ i)结束

图包含wordcloud类型的对象。图表类型的wordcloud主题标题1。wordcloud类型的图表标题主题2。图表类型的wordcloud主题标题3。4 wordcloud类型的图表标题话题。wordcloud类型的图表标题主题5。wordcloud类型的图表标题主题6。wordcloud类型的图表标题主题7。

可视化主题相关性

计算主题使用之间的相关性corrcoef函数与LDA模型主题词概率作为输入。

相关= corrcoef (mdl.TopicWordProbabilities);

视图关联的热图和标签每个主题的前三个词。防止热图突出每个和自己的琐碎话题之间的相关性,减去单位矩阵的相关性。

为每个主题,找到三个字。

numTopics = mdl.NumTopics;i = 1: numTopics顶级= topkwords (mdl 3 i);topWords (i) =加入(top.Word,”、“);结束

绘制相关使用的热图函数。

图的热图(相关性——眼睛(numTopics),XDisplayLabels = topWords,YDisplayLabels = topWords)标题(“LDA主题相关性”)包含(“主题”)ylabel (“主题”)

图包含一个类型的对象的热图。类型的热图的图表标题LDA主题的相关性。

为每个主题,找到话题与最大关联和显示双表对应的相关系数。

[topCorrelations, topCorrelatedTopics] = max(相关-眼(numTopics));台=表;资源描述。TopicIndex = (1: numTopics) ';资源描述。主题= topWords ';资源描述。TopCorrelatedTopicIndex = topCorrelatedTopics ';资源描述。TopCorrelatedTopic = topWords (topCorrelatedTopics)”; tbl.CorrelationCoefficient = topCorrelations'
台=7×5表TopicIndex主题TopCorrelatedTopicIndex TopCorrelatedTopic CorrelationCoefficient __________ ______________________________ _______________________ ______________________________ ______________________ 1“混合器、声音、汇编”5“混合器,保险丝,冷却剂”0.34304 - 2“扫描仪,代理,“4”扫描仪,出现,线轴“0.34526 3”声音,代理,听到“1“混合器、声音、汇编”0.26909 - 4“扫描仪,出现,线轴”2“扫描仪,代理,“0.34526 5“混合器,保险丝,冷却剂”1“混合器、声音、汇编”0.34304 6“的手臂,机器人,烟”1“混合器、声音、汇编”0.0042125 7”软件、分选机控制器“7”软件、分选机控制器“0

另请参阅

|||

相关的话题