主要内容

topkngram

最常见的n-gram

描述

例子

TBL= topkngram(返回一张列表列出五个最常见的n-grams的表。默认情况下,该功能对情况敏感。

例子

TBL= topkngram(,,,,k列出kn-grams模型中最常见的n格。默认情况下,该功能对情况敏感。

例子

TBL= topkngram(___,,,,名称,价值使用一个或多个名称值对参数指定其他选项。

例子

全部收缩

创建一个最常见的n-gram型号的表格。

加载示例数据。文件sonnetspreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行十四行诗,单词被一个空间隔开。提取文本sonnetspreprocessed.txt,将文本分成新线字符的文档,然后将文档归为文档。

文件名=“ Sonnetspreprocessed.txt”;str = extractfiletext(filename);textdata = split(str,newline);documents = tokenizedDocument(textData);

创建一个n-grams模型。

bag = bagofngram(文档)
Bag =带有属性的Bagofngram:计数:[154×8799 double]词汇:[1×3092字符串] Ngrams:[8799×2 String] Ngramengengts:2 Nagngrams:2 Namngram:8799 NumDocuments:154

找到前5个大型群落。

tbl = topkngram(袋)
tbl =5×3桌ngram count ngramLength _________________________________________________________________________________________________________

找到前十大大型群落。

tbl = topkngram(袋子,10)
tbl =10×3桌ngram count ngramLength _________________ _________________________________________________________________________________________甜蜜的“ 12 2”你的“爱” 11 2“ dost”“你” 10 2“你”,“ wilt” 10 2“ love”,thee'9 2

加载示例数据。文件sonnetspreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行十四行诗,单词被一个空间隔开。提取文本sonnetspreprocessed.txt,将文本分成新线字符的文档,然后将文档归为文档。

文件名=“ Sonnetspreprocessed.txt”;str = extractfiletext(filename);textdata = split(str,newline);documents = tokenizedDocument(textData);

创建一个n-grams模型。计算长度2和3(bigrams and Trigrams)的n克,请指定'ngramLengths'成为矢量[2 3]

bag = bagofngrams(文档,'ngramLengths',[2 3])
Bag =带有属性的Bagofngram:计数:[154×18022 double]词汇:[1×3092字符串] ngrams:[18022×3 string] ngramlengths:[2 3] Numngrams:18022 NumDocuments:154

查看长度2(bigrams)的10个最常见的n克。

topkngrams(袋,10,'ngramLengths',2)
ans =10×3桌ngram count n gramengthent ____________________ ______________________________________________________________________________________________自己的“”“ 13 2”你的“甜蜜”“” 12 2“你的“爱”“” 11 2“ dost”,you''''''“ 10 2”你,你“ wilt”“ wilt'“” 10 2“ love”“”你“” 9 2

查看长度3的10个最常见的n-grams(Trigrams)。

topkngrams(袋,10,'ngramLengths',3)
ans =10×3桌ngram count ngramLength ___________________________________________________________________________________________________“我的”“眼”“心” 3 3“你”“ shalt”“ find” 3 3“ fair”“ true”“ true” 3 3“ th ou th ou fair”“ fair” 2 3“ love”“ th y thy”“ self” 2 3“你的”“自我”“你” 2 3

输入参数

全部收缩

输入n-grams模型,指定为Bagofngrams目的。

返回的n-gram数量,指定为正整数。

例子:20

名称值参数

将可选的参数对name1 = value1,...,namen = valuen, 在哪里姓名是参数名称和价值是相应的值。名称值参数必须在其他参数之后出现,但是对的顺序并不重要。

在R2021a之前,请使用逗号分隔每个名称和值,并附上姓名用引号。

例子:“ ngramLengths”,[2 3]指定返回顶级的大型和trigrams。

n克长度,指定为逗号分隔对,由'ngramLengths'以及积极的整数或正整数的向量。

如果指定ngramLength,然后该函数仅返回这些长度的n-gram。如果您不指定ngramLength,然后该函数返回顶部的n-grams,而不论长度如何。

例子:[1 2 3]

忽略案例的选项,指定为逗号分隔对“无知酶”以及以下一个:

  • 错误的- 将n-grams视为仅因情况而差异为单独的n-gram。

  • 真的- 将n-grams视为仅因情况而不同的n-gram和合并计数。

强迫输出作为单元阵列返回的指标,指定为逗号分隔对,由“ forceleloutput”真的或者错误的

数据类型:逻辑

输出参数

全部收缩

按频率顺序或表格的单元格数组排序的顶部n-gram表。

该表具有以下列:

ngram n-gram指定为字符串向量
数数 n-gram出现在n-grams模型中的次数。
ngramLength n-gram的长度。

如果是非量表阵列或“ forceleloutput”真的,然后该函数将输出返回作为表的单元格数组。单元格数组中的每个元素都是一个表,包含一个相应元素的顶部n-gram

版本历史记录

在R2018A中引入