为什么LDA模型生成一个主题包括停止词虽然这些词中不存在数据?

7视图(30天)

显示旧的评论

杰克 2021年9月27日

回答: 骑自行车的人 2021年9月27日

你好,美好的一天. .

我做主题新型潜在狄利克雷分配(LDA),这需要预处理(清洁)之前的数据。因此,我做了预处理步骤顺序如下:

然而,当主题生成的LDA模型,即一个主题在LDA方法(但解答相关词汇的集合),有一个话题包含站的话虽然从数据中删除。我也检查数据并没有单一的停止词。为什么这些停止词仍然存在,显示了话题,althgouh这些话甚至不存在于模型的词汇吗?

请帮助!

骑自行车的人 2021年9月27日

我不认为这是可能的回答这个问题没有看到数据。

我认为这是异常不太可能停止词没有出现在数据,如果它出现在一个主题。也许你是不小心把另一个语料库,除了您的数据吗?另一个可能性是停止词(如。” 运行 ”)不出现在你的数据,但是一个相关的单词(如。” 运行 ”)的出现,有一种算法做修剪根词的词汇。

一件事你可以试试,要调试这个古怪,一半数据上运行您的代码,看看这些停止词仍然出现。如果他们这样做,另一半上运行它。保持切片数据,也许你可以缩小语料库的哪些部分是导致“错误”。

人工智能,数据科学和统计数据文本分析工具箱建模和预测

找到更多的在建模和预测在帮助中心和文件交换

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

翻译的