主要内容

removeShortWords

从文档或词袋模型中删除短词

描述

例子

newDocuments= removeShortWords (文档len删除长度的单词len或更少文档

例子

newBag= removeShortWords (len删除长度的单词len或者更少bagOfWords对象

例子

全部折叠

从文档中删除两个或更少字符的单词。

文档= tokenizedDocument ("一个短句的例子");newDocument = removeShortWords(文档(2)
newDocument = tokenizedDocument: 3 token:示例短句子

从单词袋模型中去掉两个或更少字符的单词。

文件= tokenizedDocument ([...一个短句的例子第二个短句]);袋= bagOfWords(文件);newBag = removeShortWords(袋、2)
newBag = bagOfWords with properties: Counts: [2x4 double] Vocabulary: ["example" "short" "sentence" "second"] NumWords: 4 NumDocuments: 2

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输入词袋模型,指定为bagOfWords对象。

要删除的字的最大长度,指定为正整数。函数删除带有的单词len或更少的字符。

输出参数

全部折叠

输出文档,作为tokenizedDocument数组中。

输出词袋模型,返回为bagOfWords对象。

介绍了R2017b