主要内容

remove emptimentDocuments

从令牌化的文档阵列,词袋模型或n-grams型号中删除空文档

描述

例子

新DOCUMENTS= emove emptementDocuments(文件删除没有单词的文件文件

例子

新袋= emove emptementDocuments(删除没有单词或n-gram的文档

例子

[[___,,,,IDX] = emove emptementDocuments(___还返回删除文档的索引。

例子

全部收缩

删除包含一系列令牌文档中的单词的文档。

创建一系列令牌文档,其中包括空文档。

documents = tokenizedDocument([“简短句子的例子”“”“第二句话”“”)))
文档= 4x1 tokenizeddocument:6代币:简短句子0令牌的示例:4令牌:第二个简短句子0令牌:

删除空文档。

newDocuments = remove emptydocuments(文档)
newDocuments = 2x1 tokenizedDocument:6代币:简短句子4令牌的示例:第二个简短句子

删除包含字袋型号的单词的文档。

创建一个bag-of-words模型从数组的令牌ized documents.

documents = tokenizedDocument([“一个简短句子的例子。”“”“第二句话。”“”);bag = bagofwords(文档)
bag =带有属性的bagofword:counts:[4x9 double]词汇:[“ an”“示例”。

从单词范围的型号中删除空文档。

newbag = emove emptydocuments(袋)
newbag =带有属性的bagofword:counts:[2x9 double]词汇:[“ an an”“示例” of“ a” a“ a”“ short” ...] numwords:9 numdocuments:2

删除包含数组中不包含单词的文档,并使用删除文档的索引也删除相应的标签。

创建一系列令牌文档,其中包括空文档。

documents = tokenizedDocument([“简短句子的例子”“”“第二句话”“”)))
文档= 4x1 tokenizeddocument:6代币:简短句子0令牌的示例:4令牌:第二个简短句子0令牌:

创建标签的向量。

标签= ["T";“F”;“F”;"T"这是给予的
标签=4x1字符串"T" "F" "F" "T"

删除空文档并获取删除文档的索引。

[newDocuments,idx] = emoveementyDocuments(文档)
newDocuments = 2x1 tokenizedDocument:6代币:简短句子4令牌的示例:第二个简短句子
idx =2×12 4

从中删除相应的标签标签

标签(idx) = []
标签=2x1字符串"T" "F"

输入参数

全部收缩

输入文档,指定为tokenizedDocument大批。

输入袋或n-grams型号,指定为小词目的or aBagofngrams目的。

输出参数

全部收缩

输出文档,返回tokenizedDocument大批。

输出模型,返回小词目的or aBagofngrams目的。类型新袋与类型相同

删除文件的索引,作为正整数的向量返回。

版本历史记录

在R2017b中引入