编码

将文档编码为单词或n-gram计数的矩阵

全部折叠到页面中

语法

counts =编码（袋子，文件）

counts =编码（袋子，单词）

counts =编码（＿＿＿，名称，价值）

描述

用编码根据单词袋或n-gram模型，将标记文档数组编码为单词或n-gram计数的矩阵。要将文档编码为向量或字索引，请使用wordEncoding目的。

例子

计数=编码（袋，文档）返回频率计数的矩阵文档基于词袋或n-g袋模型袋．

例子

计数=编码（袋，单词）返回单词列表的频率计数矩阵。

例子

计数=编码（＿＿＿，名称,值）使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

将文档编码为单词计数矩阵

打开直播脚本

将文档数组编码为单词计数矩阵。

文件= tokenizedDocument ([“一句话的一个例子”“第二短句”]);袋= bagOfWords(文档)

[2x7 double]词汇:[1x7字符串]NumWords: 7 NumDocuments: 2

文件= tokenizedDocument ([“一个新的句子”“第二个新句子”]）

document = 2x1 tokenizedDocument: 3个token:一个新句子4个token:第二个新句子

查看作为单词计数矩阵编码的文档。“新”这个词没有出现在袋，所以不算。

counts =编码（包，文件）;满（计数）

ans =2×70 0 0 1 0 1 0 0 0 0 1 0 1 1

列对应于单词袋模型的词汇表。

袋里。词汇表

ans =1 x7字符串"an" "example" "of" "a" "short" "句子" "second"

编码单词为单词计数向量

打开直播脚本

将数组单词数组作为单词计数的向量。

文件= tokenizedDocument ([“一句话的一个例子”“第二短句”]);袋= bagOfWords(文档)

[2x7 double]词汇:[1x7字符串]NumWords: 7 NumDocuments: 2

单词= [“其他”“例子”“的”“一种”“短的”“例子”“句子”];counts =编码（袋子，单词）

计数=（1,2）2（1,3）1（1,4）1（1,5）1（1,6）1

输出文档单词计数列

打开直播脚本

将文件阵列数组作为单词计数与列中的文档矩阵。

文件= tokenizedDocument ([“一句话的一个例子”“第二短句”]);袋= bagOfWords(文档)

[2x7 double]词汇:[1x7字符串]NumWords: 7 NumDocuments: 2

文件= tokenizedDocument ([“一个新的句子”“第二个新句子”]）

document = 2x1 tokenizedDocument: 3个token:一个新句子4个token:第二个新句子

查看以单词计数矩阵编码的文档，文档在列中。“新”这个词没有出现在袋，所以不算。

counts =编码（袋子，文件，“DocumentsIn”，“列”）;满（计数）

ans =7×20 0 0 0 0 0 0 1 1 0 0 1 1 0 1

输入参数

全部折叠

`袋`- - - - - -输入袋式或n-grams模型
`bagOfWords`对象|`bagOfNgrams`对象

输入单词袋或n-g袋模型，指定为bagOfWords对象或A.bagOfNgrams目的。

`文档`- - - - - -输入文档
`令人畏缩的鳕文`大批|字串数组|字符向量的单元数组

输入文档，指定为令人畏缩的鳕文数组，字符串数组，或字符向量的单元格数组。如果文档是字符向量的字符串数组或单元格数组，则它必须是表示单个文档的行向量，其中每个元素是一个单词。

提示

为了确保文档被正确编码，必须使用与创建输入模型的文档相同的步骤对输入文档进行预处理。有关如何创建函数对文本数据进行预处理的示例，请参见为分析准备文本数据．

`单词`- - - - - -输入单词
字符串向量|特征向量|字符向量的单元数组

输入字，指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量，该函数将参数视为单个单词。

数据类型:字符串|char|细胞

名称-值对的观点

指定可选的逗号分隔对名称,值论点。的名字参数名和价值是相应的价值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1，value1，...，namen，valuen．

例子：“DocumentsIn”、“行”指定输出文档的方向为行。

`“DocumentsIn”`- - - - - -输出文件的方向
`“行”`(默认)|`“列”`

频率计数矩阵中输出文档的方向，由逗号分隔的对组成“DocumentsIn”其中之一是:

“行”-返回一个频率计数矩阵，其中包含与文档对应的行。
“列”-返回频率计数的转置矩阵，列对应于文档。

数据类型:char

`'forcecelloutpul'`- - - - - -强制输出作为单元格数组返回的指示器
`假`(默认)|`真的`

强制输出作为单元格数组返回的指示符，指定为逗号分隔的对，由'forcecelloutpul'和真的或者假．

数据类型:逻辑

输出参数

全部折叠

`计数`-单词或n-gram计数
稀疏矩阵|细胞阵列的稀疏矩阵

单词或n-gram计数，作为非负整数的稀疏矩阵或稀疏矩阵的单元数组返回。

如果袋是非标量数组还是'forcecelloutpul'是真的，然后函数将输出作为稀疏矩阵的单元数组返回。单元数组中的每个元素都是对应元素的单词或n-gram计数的矩阵袋．

另请参阅

bagOfNgrams|bagOfWords|tfidf|令人畏缩的鳕文

主题

介绍了R2017b

文本分析工具箱文档

金宝app

开始与文本分析在MATLAB

立即下载

编码

语法

描述

例子

将文档编码为单词计数矩阵

编码单词为单词计数向量

输出文档单词计数列

输入参数

袋- - - - - -输入袋式或n-grams模型bagOfWords对象|bagOfNgrams对象

文档- - - - - -输入文档令人畏缩的鳕文大批|字串数组|字符向量的单元数组

单词- - - - - -输入单词字符串向量|特征向量|字符向量的单元数组

名称-值对的观点

“DocumentsIn”- - - - - -输出文件的方向“行”(默认)|“列”

'forcecelloutpul'- - - - - -强制输出作为单元格数组返回的指示器假(默认)|真的

输出参数

计数-单词或n-gram计数稀疏矩阵|细胞阵列的稀疏矩阵

另请参阅

主题

文本分析工具箱文档

金宝app

开始与文本分析在MATLAB

`袋`- - - - - -输入袋式或n-grams模型
`bagOfWords`对象|`bagOfNgrams`对象

`文档`- - - - - -输入文档
`令人畏缩的鳕文`大批|字串数组|字符向量的单元数组

`单词`- - - - - -输入单词
字符串向量|特征向量|字符向量的单元数组

`“DocumentsIn”`- - - - - -输出文件的方向
`“行”`(默认)|`“列”`

`'forcecelloutpul'`- - - - - -强制输出作为单元格数组返回的指示器
`假`(默认)|`真的`

`计数`-单词或n-gram计数
稀疏矩阵|细胞阵列的稀疏矩阵