Bag-of-n-grams模型
n-gram的bag模型记录每个n-gram出现在集合的每个文档中的次数。n-gram是集合n连续的字。
bagOfNgrams
不会将文本分割成单词。要创建标记文档的数组,请参见令人畏缩的鳕文
。
编码 |
将文档编码为单词或n-gram计数的矩阵 |
tfidf |
频率逆文档频率(tf-idf)矩阵 |
Topkngrams. |
最常见的字格 |
adddocument. |
将文档添加到单词袋或n-g袋模型中 |
删除录制 |
从单词袋或n-g袋模型中删除文档 |
removeEmptyDocuments |
从令牌化文档阵列中删除空文档,文字袋模型或N-r克模型 |
removeNgrams |
从n字袋模型中删除n字格 |
removeinfrequentngrams. |
从n字袋模型中删除不常见的n字格 |
加入 |
组合多个单词袋或n-g袋模型 |
wordcloud |
从文本、词袋模型、n字袋模型或LDA模型创建单词云图 |
adddocument.
|bagOfWords
|编码
|删除录制
|removeEmptyDocuments
|removeinfrequentngrams.
|removeNgrams
|tfidf
|令人畏缩的鳕文
|Topkngrams.