帮助中心帮助中心
将文档编码为单词或n-gram计数矩阵
计数=编码(包,文件)
计数=编码(包,单词)
计数=编码(___、名称、值)
使用编码根据单词袋或n-grams袋模型将标记化文档数组编码为单词或n-grams计数矩阵。要将文档编码为向量或单词索引,请使用wordEncoding对象。
编码
wordEncoding
例子
计数=编码(袋,文档)返回频率计数的矩阵文档基于单词袋或n-grams袋模型袋.
计数=编码(袋,文档)
计数
袋
文档
计数=编码(袋,单词)返回单词列表的频率计数矩阵。
计数=编码(袋,单词)
单词
计数=编码(___,名称,值)使用一个或多个名称-值对参数指定其他选项。
计数=编码(___,名称,值)
名称,值
全部折叠
将文档数组编码为字数矩阵。
documents = tokenizedDocument([一个短句的例子。“第二个短句”]);bag = bagOfWords(文档)
bag = bagOfWords with properties:计数:[2x7 double]词汇:["an" "example" "of" "a" "short"…NumWords: 7 NumDocuments: 2
documents = tokenizedDocument([“新句子”“第二句新句子”])
documents = 2x1 tokenizedDocument: 3个标记:一个新句子4个标记:第二个新句子
查看编码为字数矩阵的文档。“新”一词没有出现在袋,所以不算在内。
计数=编码(包,文件);全部(计数)
ans =2×70 0 0 1 1 0 0 0 0 0 1 1 1
列对应于单词袋模型的词汇表。
袋里。词汇表
ans =1 x7字符串“一个”“例子”“一个”“短”“句子”“秒”
将单词数组编码为单词计数向量。
单词= [“另一个”“例子”“的”“一个”“短”“例子”“句子”];计数=编码(包,单词)
计数= (1,2)2 (1,3)1 (1,4)1 (1,5)1 (1,6)1
将文档数组编码为字数矩阵,文档以列表示。
查看编码为字数矩阵的文档,文档以列表示。“新”一词没有出现在袋,所以不算在内。
计数=编码(包,文件,“DocumentsIn”,“列”);全部(计数)
ans =7×20 0 0 0 0 0 1 1 0 0 1 1 0 1
bagOfWords
bagOfNgrams
输入单词袋或n-grams袋模型,指定为bagOfWords对象或bagOfNgrams对象。
tokenizedDocument
输入文档,指定为tokenizedDocument数组、单词的字符串数组或字符向量的单元格数组。如果文档是字符串数组或字符向量的单元格数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。
提示
为了确保文档被正确编码,必须使用与用于创建输入模型的文档相同的步骤对输入文档进行预处理。有关显示如何创建预处理文本数据的函数的示例,请参见为分析准备文本数据.
输入单词,指定为字符串向量、字符向量或字符向量的单元格数组。如果你指定单词作为字符向量,函数将参数视为单个单词。
数据类型:字符串|字符|细胞
字符串
字符
细胞
指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。
Name1 = Value1,…,以=家
的名字
价值
在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字在报价。
例子:“DocumentsIn”、“行”将输出文档的方向指定为行。
“DocumentsIn”、“行”
DocumentsIn
“行”
“列”
频率计数矩阵中输出文档的方向,指定为逗号分隔的对,由“DocumentsIn”和以下其中之一:
“DocumentsIn”
“行”-返回一个矩阵的频率计数与行对应的文档。
“列”-返回频率计数的转置矩阵,列对应文档。
数据类型:字符
ForceCellOutput
假
真正的
指示符,用于强制输出作为单元格数组返回,指定为逗号分隔的对,由“ForceCellOutput”而且真正的或假.
“ForceCellOutput”
数据类型:逻辑
逻辑
Word或n-gram计数,作为非负整数的稀疏矩阵或稀疏矩阵的单元格数组返回。
如果袋是非标量数组还是“ForceCellOutput”是真正的,则函数将输出作为稀疏矩阵的单元格数组返回。单元格数组中的每个元素都是对应元素的单词或n-gram计数的矩阵袋.
bagOfWords|bagOfNgrams|tfidf|tokenizedDocument
tfidf
この例の変更されたバ,ジョンがあります.編集された方の例を開きますか?
次のmatlabコマンドに対応するリンクがクリックされました。
コマンドをmatlabコマンドウィンドウに入力して実行してください。Webブラウザ,はMATLABコマンドをサポ,トしていません。
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您所在的位置,我们建议您选择:.
您也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
联系当地办事处