Bag-of-n-grams模型
编码 |
将文档编码为单词或n元计数矩阵 |
tfidf |
术语频率-反文档频率(tf-idf)矩阵 |
顶面图 |
最常见的字格 |
添加文档 |
将文档添加到bag-of-words或bag-of-n-grams模型 |
删除文档 |
从单词袋或n-gram袋模型中删除文档 |
removeEmptyDocuments |
从标记化文档数组、字袋模型或n字袋模型中删除空文档 |
removeNgrams |
从包-n-grams模型中删除n-g |
移除频繁的内存 |
从包-n-grams模型中删除不常见的n-g |
加入 |
组合多个bag-of-words或bag-of-n-grams模型 |
wordcloud |
从文本、词袋模型、词袋-n-grams模型或LDA模型创建词云图 |