文件帮助中心文件
最常见的n-grams
tbl = topkngrachs(袋)
Tbl = topkngres(袋子,k)
TBL = topkngrams(___,名称,值)
例子
TBL= topkngrams(包)返回一个表列出了在N-r克模型中最常常见的n-gram的表格包。默认情况下,该函数区分大小写。
TBL= topkngrams(包)
TBL
包
TBL= topkngrams(包那K.)列出K.多见正克袋的的N-gram模型包。默认情况下,该函数区分大小写。
TBL= topkngrams(包那K.)
K.
TBL= topkngrams(___那名称,值)使用一个或多个名称值对参数指定其他选项。
TBL= topkngrams(___那名称,值)
名称,值
全部收缩
创建袋的的N-gram模型的最常见的双字母组的表。
加载示例数据。文件sonnetsPreprocessed.txt包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetsPreprocessed.txt,将文本拆分为换行符的文档,然后授权文档。
sonnetsPreprocessed.txt
filename =.“sonnetsPreprocessed.txt”;str = inthelfiletext(filename);textdata = split(str,newline);文档= tokenizeddocument(textdata);
创建一个n克模型。
包= bagOfNgrams(文档)
BAG =具有属性的BAGOFNGROM:COUNTS:[154×8799双]词汇:[1×3092字符串] ngrams:[8799×2字符串] ngramlengs:2 numngrams:8799 numfocuments:154
查找前5的双字母组。
TBL =.5×3表的ngram计数NgramLength ________________ _____ ___________ “你”, “艺术” 34 2 “我的” 的 “眼睛” 15 2 “你”, “自我” 14 2 “你”, “多斯特” 13 2 “我的” “自己” 13 2
找到顶级的10双字母组。
TBL = topkngrams(袋,10)
TBL =.10×3表的ngram计数NgramLength _________________ _____ ___________ “你”, “艺术” 34 2 “我的” 的 “眼睛” 15 2 “你”, “自我” 14 2 “你”, “多斯特” 13 2 “我的” “自己” 13 2 “你”,“甜” 12 2 “你”, “爱” 11 2 “多斯特”, “你” 10 2 “你”, “萎” 10 2 “爱” “你” 9 2
创建一个n克模型。计数的n-gram长度2和3(双字母组和三字母组)的,指定'ngramlengths'成为矢量[2 3]。
'ngramlengths'
[2 3]
包= bagOfNgrams(文件,'ngramlengths',[2 3])
BAG = BAGOFNGROMS具有属性:计数:[154×18022双]词汇:[1×3092字符串] ngrams:[18022×3字符串] ngramlengs:[2 3] numngrams:18022 Numfocuments:154
查看10个最常见的n-gram长度2(双字母组)的。
Topkngrachs(包,10,'ngramlengths',2)
ANS =10×3表ngram count narmlength _______________________ _____ ___________“你”“艺术”“我”“眼睛”“”你“”自我“”“”14“”“dost”“”“13 2”我“”拥有“”“13 2”你“”甜蜜“”“12”你“”爱“”“”你“”你“”你“”枯萎“”“10”爱“”“你“”9 2
查看10个最常见的N-克长3(三克)。
Topkngrachs(包,10,'ngramlengths',3)
ANS =10×3表ngram数量ngramlength ____________________________________________________甜蜜“4 3”为什么“你”4 3“你”“你”3 3“你”“你”“自己”3 3“我的”眼睛“”心脏“3 3”你“”shat“”找到“3 3”公平“”真实“3”你“”艺术“”艺术“2 3”爱“”你““自我”2 3“你”“自我”“你”2 3
bagofngrams.
输入袋的的N-gram模型,指定为bagofngrams.目的。
要返回的n-gram数量,指定为正整数。
例子:20.
指定可选的逗号分离对名称,值参数。名称是参数名称和价值是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N。
名称
价值
名1,值1,...,NameN,值N
'ngramlengths',[2 3]
n-gram长度,指定为逗号分隔对组成'ngramlengths'和一个正整数或正整数的向量。
如果您指定narmlengs.,则该函数返回的n-gram只有这些长度。如果没有指定narmlengs.,无论长度如何,该函数都返回顶部n-gram。
narmlengs.
例子:[1 2 3]
[1 2 3]
'Ignorecase'
错误的
真的
忽略案例的选项,指定为逗号分隔的配对'Ignorecase'和以下之一:
错误的- 仅按照单独的n-gram处理n-grams。
真的- 仅按照相同的n-gram和合并计数处理n-grams。
'ForceCellOutput'
强制输出的指示器返回为单元格数组,指定为逗号分隔对'ForceCellOutput'和真的要么错误的。
数据类型:逻辑
逻辑
的顶部的n-gram在表或频率表的一个单元阵列的顺序进行排序。
该表具有以下的列:
NGRAM
数数
NgramLength
如果包是非标量数组或'ForceCellOutput'是真的,然后该函数将输出返回为表的小区数组。单元格阵列中的每个元素是包含相应元素的顶部n-gram的表包。
bagofngrams.|Bagofwords.|removeInfrequentNgrams|removeNgrams|TFIDF.|tokenizedDocument|topkwords.
Bagofwords.
removeInfrequentNgrams
removeNgrams
TFIDF.
tokenizedDocument
topkwords.
您有此示例的修改版本。您是否希望使用您的编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,以便在可用的地方进行翻译的内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。
联系您当地的办公室