主要内容

removeEmptyDocuments

从标记化的文档数组、单词包模型或n-gram包模型中删除空文档

描述

例子

newDocuments= removeEmptyDocuments (文档删除没有字的文档文档

例子

newBag= removeEmptyDocuments (从单词袋或n-g袋模型中删除没有单词或n-g的文档

例子

___idx) = removeEmptyDocuments (___还返回已删除文档的索引。

例子

全部折叠

从标记化文档数组中删除不包含单词的文档。

创建一个包含空文档的令牌化文档数组。

文件= tokenizedDocument ([一个短句的例子""第二个短句""])
documents = 4x1 tokenizedDocument: 6 tokens:一个短句0 tokens的示例:4 tokens:第二个短句0 tokens:

删除空文档。

newDocuments = removeEmptyDocuments(文档)
newDocuments = 2x1 tokenizedDocument: 6个令牌:一个短句的例子4个令牌:第二个短句

从单词袋模型中删除不包含单词的文档。

从标记化文档数组创建单词袋模型。

文件= tokenizedDocument ([“一个短句的例子。”""第二个简短的句子。""]);袋= bagOfWords(文档)
单词:["An" "a" "short"…NumWords: 9 NumDocuments: 4

从单词袋模型中删除空文档。

newBag = removeEmptyDocuments(袋)
newBag = bagOfWords with properties: Counts: [2x9 double] newBag = bagOfWords with properties: Counts: [2x9 double]NumWords: 9 NumDocuments: 2

从数组中删除不包含单词的文档,并使用删除文档的索引来删除相应的标签。

创建一个包含空文档的令牌化文档数组。

文件= tokenizedDocument ([一个短句的例子""第二个短句""])
documents = 4x1 tokenizedDocument: 6 tokens:一个短句0 tokens的示例:4 tokens:第二个短句0 tokens:

创建一个标签向量。

标签= [“T”“F”“F”“T”
标签=4 x1字符串" t " " f " " f " " t "

删除空文档并获取删除文档的索引。

[newDocuments, idx] = removeEmptyDocuments(documents)
newDocuments = 2x1 tokenizedDocument: 6个令牌:一个短句的例子4个令牌:第二个短句
idx =2×12 4

取下对应的标签标签

标签(idx) = []
标签=2 x1字符串“T”“F”

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords对象或一个bagOfNgrams对象。

输出参数

全部折叠

输出文档,作为tokenizedDocument数组中。

输出模型,作为bagOfWords对象或一个bagOfNgrams对象。的类型newBag是同类型的吗

已删除文档的索引,作为正整数向量返回。

介绍了R2017b