removeEmptyDocuments

从标记化的文档数组、单词包模型或n-gram包模型中删除空文档

折叠所有页面

语法

newDocuments = removeEmptyDocuments(文档)

newBag = removeEmptyDocuments(袋)

［＿＿＿idx] = removeEmptyDocuments (＿＿＿）

描述

例子

newDocuments= removeEmptyDocuments (文档）删除没有字的文档文档．

例子

newBag= removeEmptyDocuments (袋）从单词袋或n-g袋模型中删除没有单词或n-g的文档袋．

例子

［＿＿＿，idx) = removeEmptyDocuments (＿＿＿）还返回已删除文档的索引。

例子

全部折叠

从数组中删除空文档

打开生活的脚本

从标记化文档数组中删除不包含单词的文档。

创建一个包含空文档的令牌化文档数组。

文件= tokenizedDocument ([一个短句的例子＂＂第二个短句＂＂]）

documents = 4x1 tokenizedDocument: 6 tokens:一个短句0 tokens的示例:4 tokens:第二个短句0 tokens:

删除空文档。

newDocuments = removeEmptyDocuments(文档)

newDocuments = 2x1 tokenizedDocument: 6个令牌:一个短句的例子4个令牌:第二个短句

从词汇袋模型中删除空文档

打开生活的脚本

从单词袋模型中删除不包含单词的文档。

从标记化文档数组创建单词袋模型。

文件= tokenizedDocument ([“一个短句的例子。”＂＂第二个简短的句子。＂＂]);袋= bagOfWords(文档)

单词:["An" "a" "short"…NumWords: 9 NumDocuments: 4

从单词袋模型中删除空文档。

newBag = removeEmptyDocuments(袋)

newBag = bagOfWords with properties: Counts: [2x9 double] newBag = bagOfWords with properties: Counts: [2x9 double]NumWords: 9 NumDocuments: 2

删除文档和相应的标签

打开生活的脚本

从数组中删除不包含单词的文档，并使用删除文档的索引来删除相应的标签。

创建一个包含空文档的令牌化文档数组。

文件= tokenizedDocument ([一个短句的例子＂＂第二个短句＂＂]）

documents = 4x1 tokenizedDocument: 6 tokens:一个短句0 tokens的示例:4 tokens:第二个短句0 tokens:

创建一个标签向量。

标签= [“T”；“F”；“F”；“T”］

标签=4 x1字符串" t " " f " " f " " t "

删除空文档并获取删除文档的索引。

[newDocuments, idx] = removeEmptyDocuments(documents)

newDocuments = 2x1 tokenizedDocument: 6个令牌:一个短句的例子4个令牌:第二个短句

idx =2×12 4

取下对应的标签标签．

标签(idx) = []

标签=2 x1字符串“T”“F”

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

`袋`- - - - - -输入袋式单词或袋式n-gram模型
`bagOfWords`对象|`bagOfNgrams`对象

输入bag-of-words或bag-of-n-grams模型，指定为bagOfWords对象或一个bagOfNgrams对象。

输出参数

全部折叠

`newDocuments`——输出文档
`tokenizedDocument`数组

输出文档，作为tokenizedDocument数组中。

`newBag`——输出模型
`bagOfWords`对象|`bagOfNgrams`对象

输出模型，作为bagOfWords对象或一个bagOfNgrams对象。的类型newBag是同类型的吗袋．

`idx`-删除文件的索引
正整数向量

已删除文档的索引，作为正整数向量返回。

另请参阅

bagOfWords|bagOfNgrams|addDocument|removeDocument|tokenizedDocument

主题

介绍了R2017b

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

立即下载

removeEmptyDocuments

语法

描述

例子

从数组中删除空文档

从词汇袋模型中删除空文档

删除文档和相应的标签

输入参数

文档- - - - - -输入文档tokenizedDocument数组

袋- - - - - -输入袋式单词或袋式n-gram模型bagOfWords对象|bagOfNgrams对象

输出参数

newDocuments——输出文档tokenizedDocument数组

newBag——输出模型bagOfWords对象|bagOfNgrams对象

idx-删除文件的索引正整数向量

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`袋`- - - - - -输入袋式单词或袋式n-gram模型
`bagOfWords`对象|`bagOfNgrams`对象

`newDocuments`——输出文档
`tokenizedDocument`数组

`newBag`——输出模型
`bagOfWords`对象|`bagOfNgrams`对象

`idx`-删除文件的索引
正整数向量