建模——MATLAB和Simulink开始话题金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

开始使用主题建模

打开生活的脚本

这个例子展示了如何配合主题模型文本数据和可视化的话题。

潜在狄利克雷分配(LDA)模型是一个话题模型,发现潜在的主题文件的集合。主题,以分布的话,一般对应组共病的单词。乔治是一个无监督的主题模型,这意味着它不需要标记数据。

加载示例数据。该文件weatherReports.csv包含天气预报,包括每个事件的文本描述和分类标签。

导入数据使用readtable功能和提取的文本数据event_narrative列。

文件名=“weatherReports.csv”;data = readtable(文件名,“TextType”,“字符串”);textData = data.event_narrative;

标记和文本数据进行预处理,并创建一个bag-of-words模型。

在标记文本。

文件= tokenizedDocument (textData);

改善模型适合,去掉标点符号和控制字(词”和“,“的”和“的”)的文件。

= removeStopWords文件(文档);= erasePunctuation文件(文档);

创建一个bag-of-words模型。

袋= bagOfWords(文件);

适合的LDA模型使用七个主题fitlda函数。抑制详细输出,设置“详细”选项0。

numTopics = 7;mdl = fitlda(袋、numTopics、“详细”,0);

使用词云可视化前四的话题。

图为topicIdx = 1:4次要情节(2,2,topicIdx) wordcloud (mdl topicIdx);标题(“主题”+ topicIdx)结束

文本分析的下一步,你可以试着改善模型适合通过使用不同的预处理步骤和可视化主题混合物。例如,看到的使用主题模型分析文本数据。