主要内容

可视化LDA主题相关性

这个示例展示了如何在Latent Dirichlet Allocation (LDA)主题模型中分析主题之间的相关性。

潜在Dirichlet分配(LDA)模型是一种主题模型,它发现文档集合中的底层主题,并推断主题中的单词概率。每个主题的单词概率向量描述了主题的特征。使用每个主题的单词概率,您可以识别主题之间的相关性。

负载LDA模型

加载LDA模型factoryReportsLDAModel它使用详细描述不同故障事件的工厂报告数据集进行培训。有关如何使LDA模型适合文本数据集合的示例,请参见使用主题模型分析文本数据

负载factoryReportsLDAModelmdl
WordConcentration: 1 TopicConcentration: 0.5755 corpustopic概率:[0.1587 0.1573 0.1551 0.1534 0.1340…]documenttopicwordprobability: [480x7 double]词汇:["item" "occasionally" "get"…TopicOrder: 'initial-fit-probability'

使用词汇云将主题形象化。

numTopics = mdl.NumTopics;图t = tiledlayout(“流”);标题(t)“LDA的话题”i = 1:numTopics nexttile wordcloud(mdl,i);标题(“主题”+ i)结束

图中包含wordcloud类型的对象。wordcloud类型的图表标题为Topic 1。wordcloud类型的图表标题为Topic 2。wordcloud类型的图表标题为Topic 3。wordcloud类型的图表标题为Topic 4。wordcloud类型的图表标题为Topic 5。wordcloud类型的图表标题为Topic 6。wordcloud类型的图表标题为Topic 7。

可视化主题相关性

方法计算主题之间的相关性corrcoef函数,以LDA模型主题词概率作为输入。

相关= corrcoef (mdl.TopicWordProbabilities);

在热图中查看相关性,并给每个话题贴上前三个单词的标签。为了防止热点图突出每个主题和它本身之间的琐碎相关性,从相关性中减去身份矩阵。

对于每个话题,找出前三个词。

numTopics = mdl.NumTopics;i = 1:numTopics top = topkwords(mdl,3,i);topWords (i) =加入(顶部。词,", ");结束

的热图函数。

figure heatmap(correlation - eye(numTopics)),...XDisplayLabels = topWords,...YDisplayLabels = topWords)标题(“LDA主题相关性”)包含(“主题”) ylabel (“主题”

图中包含一个热图类型的对象。类型热图的图表有标题LDA主题相关性。

对于每个主题,找出相关性最强的主题,并将相关系数对应的对显示在表格中。

[topcorrelation,topCorrelatedTopics] = max(correlation - eye(numTopics));台=表;资源描述。TopicIndex = (1: numTopics) ';资源描述。主题= topWords ';资源描述。TopCorrelatedTopicIndex = topCorrelatedTopics ';资源描述。TopCorrelatedTopic = topWords (topCorrelatedTopics)”; tbl.CorrelationCoefficient = topCorrelations'
台=7×5表TopicIndex主题TopCorrelatedTopicIndex TopCorrelatedTopic CorrelationCoefficient  __________ ______________________________ _______________________ ______________________________ ______________________ 1“混合器、声音、汇编”5“混合器,保险丝,冷却剂”0.34304 - 2“扫描仪,代理,“4 0.34526 - 3“扫描仪,出现,线轴声音,代理,听到“1”混频器,声音,汇编“0.26909 4”扫描仪,出现,线轴“2”扫描仪,代理商,卡“0.34526 5”混频器,保险丝,冷却剂“1”混频器,声音,汇编“0.34304 6”臂,机器人,烟雾“1”混频器,声音,汇编“0.0042125 7”软件,分拣器,控制器“7”软件,分拣器,控制器“0”

另请参阅

|||

相关的话题