topkngram
最常见的n-gram
描述
例子
最常见的n-grams模型大型
创建一个最常见的n-gram型号的表格。
加载示例数据。文件sonnetspreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件包含每行十四行诗,单词被一个空间隔开。提取文本sonnetspreprocessed.txt
,将文本分成新线字符的文档,然后将文档归为文档。
文件名=“ Sonnetspreprocessed.txt”;str = extractfiletext(filename);textdata = split(str,newline);documents = tokenizedDocument(textData);
创建一个n-grams模型。
bag = bagofngram(文档)
Bag =带有属性的Bagofngram:计数:[154×8799 double]词汇:[1×3092字符串] Ngrams:[8799×2 String] Ngramengengts:2 Nagngrams:2 Namngram:8799 NumDocuments:154
找到前5个大型群落。
tbl = topkngram(袋)
tbl =5×3桌ngram count ngramLength _________________________________________________________________________________________________________
找到前十大大型群落。
tbl = topkngram(袋子,10)
tbl =10×3桌ngram count ngramLength _________________ _________________________________________________________________________________________甜蜜的“ 12 2”你的“爱” 11 2“ dost”“你” 10 2“你”,“ wilt” 10 2“ love”,thee'9 2
计数不同长度的n克
加载示例数据。文件sonnetspreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件包含每行十四行诗,单词被一个空间隔开。提取文本sonnetspreprocessed.txt
,将文本分成新线字符的文档,然后将文档归为文档。
文件名=“ Sonnetspreprocessed.txt”;str = extractfiletext(filename);textdata = split(str,newline);documents = tokenizedDocument(textData);
创建一个n-grams模型。计算长度2和3(bigrams and Trigrams)的n克,请指定'ngramLengths'
成为矢量[2 3]
。
bag = bagofngrams(文档,'ngramLengths',[2 3])
Bag =带有属性的Bagofngram:计数:[154×18022 double]词汇:[1×3092字符串] ngrams:[18022×3 string] ngramlengths:[2 3] Numngrams:18022 NumDocuments:154
查看长度2(bigrams)的10个最常见的n克。
topkngrams(袋,10,'ngramLengths',2)
ans =10×3桌ngram count n gramengthent ____________________ ______________________________________________________________________________________________自己的“”“ 13 2”你的“甜蜜”“” 12 2“你的“爱”“” 11 2“ dost”,you''''''“ 10 2”你,你“ wilt”“ wilt'“” 10 2“ love”“”你“” 9 2
查看长度3的10个最常见的n-grams(Trigrams)。
topkngrams(袋,10,'ngramLengths',3)
ans =10×3桌ngram count ngramLength ___________________________________________________________________________________________________“我的”“眼”“心” 3 3“你”“ shalt”“ find” 3 3“ fair”“ true”“ true” 3 3“ th ou th ou fair”“ fair” 2 3“ love”“ th y thy”“ self” 2 3“你的”“自我”“你” 2 3
输入参数
包
-输入袋型号模型
Bagofngrams
目的
输入n-grams模型,指定为Bagofngrams
目的。
k
-n克数
非负整数
返回的n-gram数量,指定为正整数。
例子:20
名称值参数
将可选的参数对name1 = value1,...,namen = valuen
, 在哪里姓名
是参数名称和价值
是相应的值。名称值参数必须在其他参数之后出现,但是对的顺序并不重要。
在R2021a之前,请使用逗号分隔每个名称和值,并附上姓名
用引号。
例子:“ ngramLengths”,[2 3]
指定返回顶级的大型和trigrams。
ngramLength
-n克长度
正整数|积极整数的向量
n克长度,指定为逗号分隔对,由'ngramLengths'
以及积极的整数或正整数的向量。
如果指定ngramLength
,然后该函数仅返回这些长度的n-gram。如果您不指定ngramLength
,然后该函数返回顶部的n-grams,而不论长度如何。
例子:[1 2 3]
无知酶
-忽略案例的选项
错误的
(默认)|真的
忽略案例的选项,指定为逗号分隔对“无知酶”
以及以下一个:
错误的
- 将n-grams视为仅因情况而差异为单独的n-gram。真的
- 将n-grams视为仅因情况而不同的n-gram和合并计数。
forceleloutput
-指示器以将输出返回为单元阵列
错误的
(默认)|真的
强迫输出作为单元阵列返回的指标,指定为逗号分隔对,由“ forceleloutput”
和真的
或者错误的
。
数据类型:逻辑
输出参数
版本历史记录
matlab命令
您单击了与此MATLAB命令相对应的链接:
通过在MATLAB命令窗口中输入该命令。Web浏览器不支持MATLAB命令。金宝app
您还可以从以下列表中选择一个网站:
如何获得最佳网站性能
选择中国网站(中文或英语)以获得最佳场地性能。其他Mathworks乡村网站未针对您所在的访问进行优化。
美洲
- AméricaLatina(Español)
- 加拿大(英语)
- 美国(英语)