Bag-of-words模型
bag-of-words模型(也称为term-frequency计数器)记录的次数,单词出现在每个文档的集合。
bagOfWords
没有文本分割成单词。创建一个数组标记化的文件,看到tokenizedDocument
。
创建一个空bag-of-words模型。袋
= bagOfWords
创建一个bag-of-words模型使用单词袋
= bagOfWords (uniqueWords
,计数
)uniqueWords
和相应的频率计数计数
。
编码 |
编码矩阵的词或语法方面的文件 |
tfidf |
术语Frequency-Inverse文档频率(tf-idf)矩阵 |
topkwords |
最重要的是单词bag-of-words模型或LDA的话题 |
addDocument |
添加文档bag-of-words或bag-of-n-grams模型 |
removeDocument |
把文件从bag-of-words或bag-of-n-grams模型 |
removeEmptyDocuments |
删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型 |
removeWords |
删除选中的文字从文档或bag-of-words模型 |
removeInfrequentWords |
从bag-of-words模型删除单词计数较低 |
加入 |
结合多个bag-of-words或bag-of-n-grams模型 |
wordcloud |
创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型 |
如果你打算使用了测试设置为你的工作,然后划分你的文本数据在使用前bagOfWords
。否则,bag-of-words模型可能偏差分析。
bagOfNgrams
|addDocument
|removeDocument
|removeInfrequentWords
|removeWords
|removeEmptyDocuments
|topkwords
|编码
|tfidf
|tokenizedDocument