开始使用主题建模
这个例子展示了如何配合主题模型文本数据和可视化的话题。
潜在狄利克雷分配(LDA)模型是一个话题模型,发现潜在的主题文件的集合。主题,以分布的话,一般对应组共病的单词。乔治是一个无监督的主题模型,这意味着它不需要标记数据。
加载和数据中提取文本
加载示例数据。该文件weatherReports.csv
包含天气预报,包括每个事件的文本描述和分类标签。
导入数据使用readtable
功能和提取的文本数据event_narrative
列。
文件名=“weatherReports.csv”;data = readtable(文件名,“TextType”,“字符串”);textData = data.event_narrative;
准备文本数据进行分析
标记和文本数据进行预处理,并创建一个bag-of-words模型。
在标记文本。
文件= tokenizedDocument (textData);
改善模型适合,去掉标点符号和控制字(词”和“,“的”和“的”)的文件。
= removeStopWords文件(文档);= erasePunctuation文件(文档);
创建一个bag-of-words模型。
袋= bagOfWords(文件);
符合LDA模型
适合的LDA模型使用七个主题fitlda
函数。抑制详细输出,设置“详细”
选项0
。
numTopics = 7;mdl = fitlda(袋、numTopics、“详细”,0);
可视化的话题
使用词云可视化前四的话题。
图为topicIdx = 1:4次要情节(2,2,topicIdx) wordcloud (mdl topicIdx);标题(“主题”+ topicIdx)结束
文本分析的下一步,你可以试着改善模型适合通过使用不同的预处理步骤和可视化主题混合物。例如,看到的使用主题模型分析文本数据。
另请参阅
bagOfWords
|erasePunctuation
|fitlda
|removeStopWords
|tokenizedDocument
|wordcloud