主要内容

编码

将文档编码为单词或n-gram计数矩阵

描述

使用编码根据单词袋或n-grams袋模型将标记化文档数组编码为单词或n-grams计数矩阵。要将文档编码为向量或单词索引,请使用wordEncoding对象。

例子

计数=编码(文档返回频率计数的矩阵文档基于单词袋或n-grams袋模型

例子

计数=编码(单词返回单词列表的频率计数矩阵。

例子

计数=编码(___名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

将文档数组编码为字数矩阵。

documents = tokenizedDocument([一个短句的例子。“第二个短句”]);bag = bagOfWords(文档)
bag = bagOfWords with properties:计数:[2x7 double]词汇:["an" "example" "of" "a" "short"…NumWords: 7 NumDocuments: 2
documents = tokenizedDocument([“新句子”“第二句新句子”])
documents = 2x1 tokenizedDocument: 3个标记:一个新句子4个标记:第二个新句子

查看编码为字数矩阵的文档。“新”一词没有出现在,所以不算在内。

计数=编码(包,文件);全部(计数)
ans =2×70 0 0 1 1 0 0 0 0 0 1 1 1

列对应于单词袋模型的词汇表。

袋里。词汇表
ans =1 x7字符串“一个”“例子”“一个”“短”“句子”“秒”

将单词数组编码为单词计数向量。

documents = tokenizedDocument([一个短句的例子。“第二个短句”]);bag = bagOfWords(文档)
bag = bagOfWords with properties:计数:[2x7 double]词汇:["an" "example" "of" "a" "short"…NumWords: 7 NumDocuments: 2
单词= [“另一个”“例子”“的”“一个”“短”“例子”“句子”];计数=编码(包,单词)
计数= (1,2)2 (1,3)1 (1,4)1 (1,5)1 (1,6)1

将文档数组编码为字数矩阵,文档以列表示。

documents = tokenizedDocument([一个短句的例子。“第二个短句”]);bag = bagOfWords(文档)
bag = bagOfWords with properties:计数:[2x7 double]词汇:["an" "example" "of" "a" "short"…NumWords: 7 NumDocuments: 2
documents = tokenizedDocument([“新句子”“第二句新句子”])
documents = 2x1 tokenizedDocument: 3个标记:一个新句子4个标记:第二个新句子

查看编码为字数矩阵的文档,文档以列表示。“新”一词没有出现在,所以不算在内。

计数=编码(包,文件,“DocumentsIn”“列”);全部(计数)
ans =7×20 0 0 0 0 0 1 1 0 0 1 1 0 1

输入参数

全部折叠

输入单词袋或n-grams袋模型,指定为bagOfWords对象或bagOfNgrams对象。

输入文档,指定为tokenizedDocument数组、单词的字符串数组或字符向量的单元格数组。如果文档是字符串数组或字符向量的单元格数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。

提示

为了确保文档被正确编码,必须使用与用于创建输入模型的文档相同的步骤对输入文档进行预处理。有关显示如何创建预处理文本数据的函数的示例,请参见为分析准备文本数据

输入单词,指定为字符串向量、字符向量或字符向量的单元格数组。如果你指定单词作为字符向量,函数将参数视为单个单词。

数据类型:字符串|字符|细胞

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字在报价。

例子:“DocumentsIn”、“行”将输出文档的方向指定为行。

频率计数矩阵中输出文档的方向,指定为逗号分隔的对,由“DocumentsIn”和以下其中之一:

  • “行”-返回一个矩阵的频率计数与行对应的文档。

  • “列”-返回频率计数的转置矩阵,列对应文档。

数据类型:字符

指示符,用于强制输出作为单元格数组返回,指定为逗号分隔的对,由“ForceCellOutput”而且真正的

数据类型:逻辑

输出参数

全部折叠

Word或n-gram计数,作为非负整数的稀疏矩阵或稀疏矩阵的单元格数组返回。

如果是非标量数组还是“ForceCellOutput”真正的,则函数将输出作为稀疏矩阵的单元格数组返回。单元格数组中的每个元素都是对应元素的单词或n-gram计数的矩阵

版本历史

在R2017b中引入