主要内容

编码

编码矩阵的词或语法方面的文件

描述

使用编码编码标记化的文档作为一个矩阵的数组的词或语法项根据bag-of-words或bag-of-n-grams模型。编码文档向量或词指数,使用wordEncoding对象。

例子

计数=编码(,文档)返回一个矩阵的频率计数文档基于bag-of-words或bag-of-n-grams模型

例子

计数=编码(,单词)返回一个矩阵的频率计数的单词列表。

例子

计数=编码(___,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

编码文档作为一个矩阵的数组的单词计数。

文件= tokenizedDocument ([“一个短句”“第二个短句”]);袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[2 x7双]词汇:[“一”“例子”“”“”“短”“句子”“第二”]NumWords: 7 NumDocuments: 2
文件= tokenizedDocument ([“一个新的句子”“第二个新句子”])
文件= 2 x1 tokenizedDocument: 3标记:一个新的句子4标记:一个新的句子

查看单词统计的文档编码为一个矩阵。“新”这个词没有出现在,所以它不计算在内。

数量=编码(袋、文件);全部(计数)
ans =2×70 0 0 1 0 1 0 0 0 0 1 0 1 1

的列对应的词汇bag-of-words模型。

bag.Vocabulary
ans =1 x7字符串“例子”“一个”的“a”“短”“句子”“第二”

编码一个数组的单词单词统计的一个向量。

文件= tokenizedDocument ([“一个短句”“第二个短句”]);袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[2 x7双]词汇:[“一”“例子”“”“”“短”“句子”“第二”]NumWords: 7 NumDocuments: 2
话说= [“另一个”“例子”“的”“一个”“短”“例子”“句子”];数量=编码(袋、字)
数量= (1、2)2 (1、3)1 (1、4)1 (1、5)1 (1,6)1

编码文档作为一个矩阵的数组的单词统计文档列。

文件= tokenizedDocument ([“一个短句”“第二个短句”]);袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[2 x7双]词汇:[“一”“例子”“”“”“短”“句子”“第二”]NumWords: 7 NumDocuments: 2
文件= tokenizedDocument ([“一个新的句子”“第二个新句子”])
文件= 2 x1 tokenizedDocument: 3标记:一个新的句子4标记:一个新的句子

查看单词统计的文档编码为一个矩阵列的文档。“新”这个词没有出现在,所以它不计算在内。

数量=编码(袋、文档“DocumentsIn”,“列”);全部(计数)
ans =7×20 0 0 0 0 0 1 1 0 0 1 1 0 1

输入参数

全部折叠

输入bag-of-words或bag-of-n-grams模型,指定为一个bagOfWords对象或一个bagOfNgrams对象。

输入文件,指定为一个tokenizedDocument数组,字符串数组的话,或一个细胞的特征向量。如果文档是一个字符串数组或单元阵列的特征向量,那么它必须是一个行向量代表一个文档,其中每个元素是一个词。

提示

确保正确编码的文档,您必须使用相同的步骤进行预处理输入文档的文档用于创建输入模型。为一个例子,演示如何创建一个函数来对文本数据进行预处理,明白了准备文本数据进行分析

输入文字,指定为字符串向量,特征向量,或单元阵列特征向量。如果您指定单词作为一个特征向量,那么函数将参数作为一个单独的词。

数据类型:字符串|字符|细胞

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“DocumentsIn”、“行”指定输出文件的方向行。

取向的频率计数输出文档矩阵,指定为逗号分隔组成的“DocumentsIn”和下列之一:

  • “行”——返回频率计数的一个矩阵行相应的文档。

  • “列”——返回频率计数的转置矩阵列对应的文件。

数据类型:字符

迫使输出指标作为细胞数组,返回指定为逗号分隔组成的“ForceCellOutput”真正的

数据类型:逻辑

输出参数

全部折叠

单词或语法计数、返回稀疏矩阵的稀疏矩阵的非负整数或单元阵列。

如果是一种基本数组或“ForceCellOutput”真正的,那么函数返回输出单元阵列的稀疏矩阵。单元阵列中的每个元素矩阵的词或语法项对应的元素

版本历史

介绍了R2017b