主要内容

编码

将文档编码为单词或n-gram计数的矩阵

描述

编码根据单词袋或n-gram模型,将标记文档数组编码为单词或n-gram计数的矩阵。要将文档编码为向量或字索引,请使用wordEncoding目的。

例子

计数=编码(文档返回频率计数的矩阵文档基于词袋或n-g袋模型

例子

计数=编码(单词返回单词列表的频率计数矩阵。

例子

计数=编码(___名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

将文档数组编码为单词计数矩阵。

文件= tokenizedDocument ([“一句话的一个例子”“第二短句”]);袋= bagOfWords(文档)
[2x7 double]词汇:[1x7字符串]NumWords: 7 NumDocuments: 2
文件= tokenizedDocument ([“一个新的句子”“第二个新句子”])
document = 2x1 tokenizedDocument: 3个token:一个新句子4个token:第二个新句子

查看作为单词计数矩阵编码的文档。“新”这个词没有出现在,所以不算。

counts =编码(包,文件);满(计数)
ans =2×70 0 0 1 0 1 0 0 0 0 1 0 1 1

列对应于单词袋模型的词汇表。

袋里。词汇表
ans =1 x7字符串"an" "example" "of" "a" "short" "句子" "second"

将数组单词数组作为单词计数的向量。

文件= tokenizedDocument ([“一句话的一个例子”“第二短句”]);袋= bagOfWords(文档)
[2x7 double]词汇:[1x7字符串]NumWords: 7 NumDocuments: 2
单词= [“其他”“例子”“的”“一种”“短的”“例子”“句子”];counts =编码(袋子,单词)
计数=(1,2)2(1,3)1(1,4)1(1,5)1(1,6)1

将文件阵列数组作为单词计数与列中的文档矩阵。

文件= tokenizedDocument ([“一句话的一个例子”“第二短句”]);袋= bagOfWords(文档)
[2x7 double]词汇:[1x7字符串]NumWords: 7 NumDocuments: 2
文件= tokenizedDocument ([“一个新的句子”“第二个新句子”])
document = 2x1 tokenizedDocument: 3个token:一个新句子4个token:第二个新句子

查看以单词计数矩阵编码的文档,文档在列中。“新”这个词没有出现在,所以不算。

counts =编码(袋子,文件,“DocumentsIn”“列”);满(计数)
ans =7×20 0 0 0 0 0 0 1 1 0 0 1 1 0 1

输入参数

全部折叠

输入单词袋或n-g袋模型,指定为bagOfWords对象或A.bagOfNgrams目的。

输入文档,指定为令人畏缩的鳕文数组,字符串数组,或字符向量的单元格数组。如果文档是字符向量的字符串数组或单元格数组,则它必须是表示单个文档的行向量,其中每个元素是一个单词。

提示

为了确保文档被正确编码,必须使用与创建输入模型的文档相同的步骤对输入文档进行预处理。有关如何创建函数对文本数据进行预处理的示例,请参见为分析准备文本数据

输入字,指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量,该函数将参数视为单个单词。

数据类型:字符串|char|细胞

名称-值对的观点

指定可选的逗号分隔对名称,值论点。的名字参数名和价值是相应的价值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:“DocumentsIn”、“行”指定输出文档的方向为行。

频率计数矩阵中输出文档的方向,由逗号分隔的对组成“DocumentsIn”其中之一是:

  • “行”-返回一个频率计数矩阵,其中包含与文档对应的行。

  • “列”-返回频率计数的转置矩阵,列对应于文档。

数据类型:char

强制输出作为单元格数组返回的指示符,指定为逗号分隔的对,由'forcecelloutpul'真的或者

数据类型:逻辑

输出参数

全部折叠

单词或n-gram计数,作为非负整数的稀疏矩阵或稀疏矩阵的单元数组返回。

如果是非标量数组还是'forcecelloutpul'真的,然后函数将输出作为稀疏矩阵的单元数组返回。单元数组中的每个元素都是对应元素的单词或n-gram计数的矩阵

介绍了R2017b