主要内容

removeEmptyDocuments

删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型

描述

例子

newDocuments= removeEmptyDocuments (文档)删除没有单词的文档文档

例子

newBag= removeEmptyDocuments ()删除文档中没有的词或字格bag-of-words或bag-of-n-grams模型

例子

(___,idx)= removeEmptyDocuments (___)返回删除文件的索引。

例子

全部折叠

从数组删除包含没有单词的文档标记化的文档。

创建一个数组标记化的文档包括空文件。

文件= tokenizedDocument ([“一个短句””““第二个短句””“])
文件= 4 x1 tokenizedDocument: 6标记:一个短句0令牌:4令牌:第二个短句0令牌:

删除空的文档。

newDocuments = removeEmptyDocuments(文档)
newDocuments = 2 x1 tokenizedDocument: 6个标记:一个短句4令牌:第二个短句

删除从bag-of-words模型包含没有单词的文档。

从数组创建一个bag-of-words模型的标记化的文档。

文件= tokenizedDocument ([“一个短句的例子。””““第二个短句。””“]);袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[4 x9双]词汇:“一个”“例子”“““““短”“句子”“。”"A" "second"] NumWords: 9 NumDocuments: 4

从bag-of-words删除空文档模型。

newBag = removeEmptyDocuments(袋)
newBag = bagOfWords属性:计数:[2 x9双]词汇:“一个”“例子”“““““短”“句子”“。”"A" "second"] NumWords: 9 NumDocuments: 2

从数组中移除包含没有单词的文档和使用删除文档的索引中删除相应的标签。

创建一个数组标记化的文档包括空文件。

文件= tokenizedDocument ([“一个短句””““第二个短句””“])
文件= 4 x1 tokenizedDocument: 6标记:一个短句0令牌:4令牌:第二个短句0令牌:

创建一个向量的标签。

标签= [“T”;“F”;“F”;“T”]
标签=4 x1字符串“T”“F”“F”“T”

删除空的文件和删除文件的索引。

[newDocuments, idx] = removeEmptyDocuments(文档)
newDocuments = 2 x1 tokenizedDocument: 6个标记:一个短句4令牌:第二个短句
idx =2×12 4

删除对应的标签标签

标签(idx) = []
标签=2 x1字符串“T”“F”

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

输入bag-of-words或bag-of-n-grams模型,指定为一个bagOfWords对象或一个bagOfNgrams对象。

输出参数

全部折叠

输出文件,作为一个返回tokenizedDocument数组中。

输出模式,作为一个返回bagOfWords对象或一个bagOfNgrams对象。的类型newBag的类型是一样的吗

删除文档的索引,作为一个向量的正整数返回。

版本历史

介绍了R2017b