主要内容

删除文件

从标记化的文档数组、单词包模型或n-gram包模型中删除空文档

描述

例子

newdocuments.=删除ydocuments(文件的)删除没有单词的文件文件

例子

新手=删除ydocuments(的)删除没有单词或n-gram的文档或n-r克模型的袋子

例子

[___idx.] =删除文件(___的)还返回删除文件的索引。

例子

全部收缩

删除包含令牌化文件数组中没有单词的文档。

创建一个包含空文档的令牌化文档数组。

文档= tokenizeddocument([“一句话的一个例子”“第二句话”])
Documents = 4x1 tokenizedDocument:6个令牌:短句的示例0令牌:4令牌:第二个短句0令牌:

删除空文档。

newdocuments =删除文件(文件)
newdocuments = 2x1 tokenizeddocument:6个令牌:短句4令牌的一个例子:第二句话

删除包含袋式模型中没有单词的文档。

从标记化文档数组创建单词袋模型。

文档= tokenizeddocument([“一句话的一个例子。”“第二句话。”]);袋= bagofwords(文件)
BAG = BAGOFWORDS具有属性:计数:[4x9 DOUBLE]词汇表:[“示例”“A”“短语”......] NUM字:9 NUMFOCUMENTS:4

从单词袋式模型中删除空文档。

newbag = defoumemptydocuments(袋)
newbag = bagofwords的属性:counts:[2x9 double]词汇表:[“一个”“a”“短语”......] num字:9 numfocuments:2

从数组中删除不包含单词的文档,并使用删除文档的索引来删除相应的标签。

创建一个包含空文档的令牌化文档数组。

文档= tokenizeddocument([“一句话的一个例子”“第二句话”])
Documents = 4x1 tokenizedDocument:6个令牌:短句的示例0令牌:4令牌:第二个短句0令牌:

创建标签向量。

标签= [“T”;“F”;“F”;“T”]
标签=4x1字符串" t " " f " " f " " t "

删除空文档并获取已删除文档的索引。

[newdocuments,idx] = rocemementydocuments(文件)
newdocuments = 2x1 tokenizeddocument:6个令牌:短句4令牌的一个例子:第二句话
idx =2×12 4

从中删除相应的标签标签

标签(idx) = []
标签=2x1字符串“T”“F”

输入参数

全部收缩

输入文档,指定为atokenizedDocument大批。

输入袋式或n-grams模型,指定为aBagofwords.对象或一个Bagofngrams.目的。

输出参数

全部收缩

输出文件,作为a返回tokenizedDocument大批。

输出模型,作为a返回Bagofwords.对象或一个Bagofngrams.目的。类型的类型新手与类型相同

删除文件的指数,作为正整数的向量返回。

介绍在R2017B.