Bag-of-n-grams模型
n-gram包模型记录了每个n-gram出现在集合的每个文档中的次数。n-gram是集合n连续的字。
bagOfNgrams
不能将文本分割成单词。要创建令牌化文档数组,请参见tokenizedDocument
.
编码 |
将文档编码为单词或n元计数矩阵 |
tfidf |
术语频率-反文档频率(tf-idf)矩阵 |
topkngrams |
最常见的字格 |
addDocument |
将文档添加到bag-of-words或bag-of-n-grams模型 |
removeDocument |
从单词袋或n-gram袋模型中删除文档 |
removeEmptyDocuments |
从标记化的文档数组、单词包模型或n-gram包模型中删除空文档 |
removeNgrams |
从包-n-grams模型中删除n-g |
removeInfrequentNgrams |
从包-n-grams模型中删除不常见的n-g |
加入 |
组合多个bag-of-words或bag-of-n-grams模型 |
wordcloud |
从文本、词袋模型、词袋-n-grams模型或LDA模型创建词云图 |
bagOfWords
|addDocument
|removeDocument
|removeInfrequentNgrams
|removeNgrams
|removeEmptyDocuments
|topkngrams
|编码
|tfidf
|tokenizedDocument