bagOfWords
Bag-of-words模型
描述
bag-of-words模型(也称为term-frequency计数器)记录的次数,单词出现在每个文档的集合。
bagOfWords
没有文本分割成单词。创建一个数组标记化的文件,看到tokenizedDocument
。
创建
描述
创建一个空bag-of-words模型。袋
= bagOfWords
创建一个bag-of-words模型使用单词袋
= bagOfWords (uniqueWords
,计数
)uniqueWords
和相应的频率计数计数
。
输入参数
属性
对象的功能
编码 |
编码矩阵的词或语法方面的文件 |
tfidf |
术语Frequency-Inverse文档频率(tf-idf)矩阵 |
topkwords |
最重要的是单词bag-of-words模型或LDA的话题 |
addDocument |
添加文档bag-of-words或bag-of-n-grams模型 |
removeDocument |
把文件从bag-of-words或bag-of-n-grams模型 |
removeEmptyDocuments |
删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型 |
removeWords |
删除选中的文字从文档或bag-of-words模型 |
removeInfrequentWords |
从bag-of-words模型删除单词计数较低 |
加入 |
结合多个bag-of-words或bag-of-n-grams模型 |
wordcloud |
创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型 |
例子
提示
如果你打算使用了测试设置为你的工作,然后划分你的文本数据在使用前
bagOfWords
。否则,bag-of-words模型可能偏差分析。
版本历史
介绍了R2017b