主要内容

removeInfrequentWords

从单词袋模型中删除低计数的单词

描述

例子

newBag= removeInfrequentWords (删除最多出现的单词从词汇袋模型中得到的总时间.缺省情况下,该函数区分大小写。

例子

newBag= removeInfrequentWords (“IgnoreCase”,真的)删除最多出现的单词总次数忽略大小写。如果单词只按大小写不同,则合并相应的计数。

例子

全部折叠

从单词袋模型中删除出现两次或更少的单词。

从标记化文档数组创建单词袋模型。

文件= tokenizedDocument ([一个短句的例子第二个短句“另一个例子”“一个简短的例子”]);袋= bagOfWords(文档)
单词:["an" "a" "short"…NumWords: 8 NumDocuments: 4

从单词袋模型中删除出现两次或更少的单词。

数= 2;newBag = removeInfrequentWords(包,数量)
newBag = bagOfWords with properties: Counts: [4x3 double] Vocabulary: ["example" "a" "short"] NumWords: 3 NumDocuments: 4

输入参数

全部折叠

输入词袋模型,指定为bagOfWords对象。

计数阈值以删除字,指定为正整数。函数删除出现的单词总次数或更少。

介绍了R2017b