主要内容

删除常用词

从单词包模型中删除计数较低的单词

描述

实例

纽巴格=删除不常用的单词(纸袋,计数)删除最多出现的单词计数从单词袋模型中获得的总次数纸袋. 默认情况下,该函数区分大小写。

实例

纽巴格=删除不常用的单词(纸袋,计数,'IgnoreCase',正确)删除最多出现的单词计数忽略大小写的总次数。如果单词仅大小写不同,则合并相应的计数。

例子

全部崩溃

从单词包模型中删除出现两次或更少的单词。

从标记化文档数组创建一个单词包模型。

文档=标记化文档([“一个短句的例子”“第二句话”“另一个例子”“一个简短的例子”]); bag=bagOfWords(文件)
bag=bagOfWords,属性:Counts:[4x8 double]词汇:[“a”short的“示例”…]NumWords:8 NumDocuments:4

从单词袋模型中删除出现两次或更少的单词。

计数=2;newBag=删除常用词(包、计数)
newBag=bagOfWords,属性:Counts:[4x3 double]词汇:[“示例”“a”“short”]NumWords:3 NumDocuments:4

输入参数

全部崩溃

输入单词包模型,指定为巴格沃兹对象

计数阈值以删除指定为正整数的单词。此函数用于删除出现的单词计数总次数或更少。

在R2017b中引入