文档帮助中心文档
将文档编码为单词或n-gram计数的矩阵
counts =编码(袋子,文件)
counts =编码(袋子,单词)
counts =编码(___,名称,价值)
用编码根据单词袋或n-gram模型,将标记文档数组编码为单词或n-gram计数的矩阵。要将文档编码为向量或字索引,请使用wordEncoding目的。
编码
wordEncoding
例子
计数=编码(袋,文档)返回频率计数的矩阵文档基于词袋或n-g袋模型袋.
计数=编码(袋,文档)
计数
袋
文档
计数=编码(袋,单词)返回单词列表的频率计数矩阵。
计数=编码(袋,单词)
单词
计数=编码(___,名称,值)使用一个或多个名称-值对参数指定其他选项。
计数=编码(___,名称,值)
名称,值
全部折叠
将文档数组编码为单词计数矩阵。
文件= tokenizedDocument ([“一句话的一个例子”“第二短句”]);袋= bagOfWords(文档)
[2x7 double]词汇:[1x7字符串]NumWords: 7 NumDocuments: 2
文件= tokenizedDocument ([“一个新的句子”“第二个新句子”])
document = 2x1 tokenizedDocument: 3个token:一个新句子4个token:第二个新句子
查看作为单词计数矩阵编码的文档。“新”这个词没有出现在袋,所以不算。
counts =编码(包,文件);满(计数)
ans =2×70 0 0 1 0 1 0 0 0 0 1 0 1 1
列对应于单词袋模型的词汇表。
袋里。词汇表
ans =1 x7字符串"an" "example" "of" "a" "short" "句子" "second"
将数组单词数组作为单词计数的向量。
单词= [“其他”“例子”“的”“一种”“短的”“例子”“句子”];counts =编码(袋子,单词)
计数=(1,2)2(1,3)1(1,4)1(1,5)1(1,6)1
将文件阵列数组作为单词计数与列中的文档矩阵。
查看以单词计数矩阵编码的文档,文档在列中。“新”这个词没有出现在袋,所以不算。
counts =编码(袋子,文件,“DocumentsIn”,“列”);满(计数)
ans =7×20 0 0 0 0 0 0 1 1 0 0 1 1 0 1
bagOfWords
bagOfNgrams
输入单词袋或n-g袋模型,指定为bagOfWords对象或A.bagOfNgrams目的。
令人畏缩的鳕文
输入文档,指定为令人畏缩的鳕文数组,字符串数组,或字符向量的单元格数组。如果文档是字符向量的字符串数组或单元格数组,则它必须是表示单个文档的行向量,其中每个元素是一个单词。
提示
为了确保文档被正确编码,必须使用与创建输入模型的文档相同的步骤对输入文档进行预处理。有关如何创建函数对文本数据进行预处理的示例,请参见为分析准备文本数据.
输入字,指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量,该函数将参数视为单个单词。
数据类型:字符串|char|细胞
字符串
char
细胞
指定可选的逗号分隔对名称,值论点。的名字参数名和价值是相应的价值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen.
的名字
价值
name1,value1,...,namen,valuen
“DocumentsIn”、“行”
“DocumentsIn”
“行”
“列”
频率计数矩阵中输出文档的方向,由逗号分隔的对组成“DocumentsIn”其中之一是:
“行”-返回一个频率计数矩阵,其中包含与文档对应的行。
“列”-返回频率计数的转置矩阵,列对应于文档。
数据类型:char
'forcecelloutpul'
假
真的
强制输出作为单元格数组返回的指示符,指定为逗号分隔的对,由'forcecelloutpul'和真的或者假.
数据类型:逻辑
逻辑
单词或n-gram计数,作为非负整数的稀疏矩阵或稀疏矩阵的单元数组返回。
如果袋是非标量数组还是'forcecelloutpul'是真的,然后函数将输出作为稀疏矩阵的单元数组返回。单元数组中的每个元素都是对应元素的单词或n-gram计数的矩阵袋.
bagOfNgrams|bagOfWords|tfidf|令人畏缩的鳕文
tfidf
您有这个示例的一个修改版本。要用编辑打开这个例子吗?
您点击了一个对应于这个MATLAB命令的链接:
通过在MATLAB命令窗口中输入该命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站来获得可用的翻译内容,并看到当地的活动和提供。根据您所在的位置,我们建议您选择:.
您还可以从以下列表中选择一个网站:
请选择表现最佳的中国网站(中文或英文)。MathWorks的其他国家网站并没有针对您所在位置的访问进行优化。
与当地办事处联系