一袋字模式
袋的词模型(也称为术语频率计数器)记录的次数,也就是说出现在集合中的每个文件的数量。
Bagofwords.
不会将文本拆分为单词。要创建一系列令牌化文件,请参阅tokenizedDocument
。
创建一个空袋式模型。包
= bagofwords.
使用单词创建一个单词袋式模型包
= bagOfWords(uniquewords.
那算
)uniquewords.
并在相应的频率计数算
。
编码 |
将文档编码为单词或n-gram计数的矩阵 |
TFIDF. |
术语频率 - 逆文档频率(TF-IDF)矩阵 |
topkwords |
袋式模型或LDA主题中最重要的单词 |
addDocument |
添加文件袋的词或袋的的N-gram模型 |
removeDocument |
从单词袋或n-r克模型中删除文档 |
删除程序 |
从标记化的文档数组、单词包模型或n-gram包模型中删除空文档 |
删除 |
从文档或单词袋式模型中删除所选单词 |
removeinfrequentwords. |
从单词袋式模型中删除具有低计数的单词 |
加入 |
结合多个单词或袋式袋式型号 |
WordCloud. |
从文本,文字袋模型,n-grams模型或LDA模型创建单词云图 |
如果你打算使用一个伸出测试仪为您的工作,然后使用分区之前的文本数据Bagofwords.
。否则,袋的词模型可偏向你的分析。
bagofngrams.
|addDocument
|removeDocument
|removeinfrequentwords.
|删除
|删除程序
|topkwords
|编码
|TFIDF.
|tokenizedDocument