为什么LDA模型生成一个主题包括停止词虽然这些词中不存在数据?

7视图(30天)
你好,美好的一天. .
我做主题新型潜在狄利克雷分配(LDA),这需要预处理(清洁)之前的数据。因此,我做了预处理步骤顺序如下:
然而,当主题生成的LDA模型,即一个主题在LDA方法(但解答相关词汇的集合),有一个话题包含站的话虽然从数据中删除。我也检查数据并没有单一的停止词。 为什么这些停止词仍然存在,显示了话题,althgouh这些话甚至不存在于模型的词汇吗?
请帮助!

答案(1)

骑自行车的人”class=
骑自行车的人 2021年9月27日
我不认为这是可能的回答这个问题没有看到数据。
我认为这是 异常 不太可能停止词没有出现在数据,如果它出现在一个主题。也许你是不小心把另一个语料库,除了您的数据吗?另一个可能性是停止词(如。” 运行 ”)不出现在你的数据,但是一个相关的单词(如。” 运行 ”)的出现,有一种算法做修剪根词的词汇。
一件事你可以试试,要调试这个古怪,一半数据上运行您的代码,看看这些停止词仍然出现。如果他们这样做,另一半上运行它。保持切片数据,也许你可以缩小语料库的哪些部分是导致“错误”。

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

翻译的