topkngram

最常见的n-gram

在页面中崩溃

句法

tbl = topkngram（袋）

tbl = topkngram（袋，k）

tbl = topkngram（___，名称，值）

描述

例子

TBL= topkngram（包）返回一张列表列出五个最常见的n-grams的表包。默认情况下，该功能对情况敏感。

例子

TBL= topkngram（包，，，，k）列出kn-grams模型中最常见的n格包。默认情况下，该功能对情况敏感。

例子

TBL= topkngram（___，，，，名称，价值）使用一个或多个名称值对参数指定其他选项。

例子

全部收缩

最常见的n-grams模型大型

打开实时脚本

创建一个最常见的n-gram型号的表格。

加载示例数据。文件sonnetspreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行十四行诗，单词被一个空间隔开。提取文本sonnetspreprocessed.txt，将文本分成新线字符的文档，然后将文档归为文档。

文件名=“ Sonnetspreprocessed.txt”;str = extractfiletext（filename）;textdata = split（str，newline）;documents = tokenizedDocument（textData）;

创建一个n-grams模型。

bag = bagofngram（文档）

Bag =带有属性的Bagofngram：计数：[154×8799 double]词汇：[1×3092字符串] Ngrams：[8799×2 String] Ngramengengts：2 Nagngrams：2 Namngram：8799 NumDocuments：154

找到前5个大型群落。

tbl = topkngram（袋）

tbl =5×3桌ngram count ngramLength _________________________________________________________________________________________________________

找到前十大大型群落。

tbl = topkngram（袋子，10）

tbl =10×3桌ngram count ngramLength _________________ _________________________________________________________________________________________甜蜜的“ 12 2”你的“爱” 11 2“ dost”“你” 10 2“你”，“ wilt” 10 2“ love”，thee'9 2

计数不同长度的n克

打开实时脚本

文件名=“ Sonnetspreprocessed.txt”;str = extractfiletext（filename）;textdata = split（str，newline）;documents = tokenizedDocument（textData）;

创建一个n-grams模型。计算长度2和3（bigrams and Trigrams）的n克，请指定'ngramLengths'成为矢量[2 3]。

bag = bagofngrams（文档，'ngramLengths'，[2 3]）

Bag =带有属性的Bagofngram：计数：[154×18022 double]词汇：[1×3092字符串] ngrams：[18022×3 string] ngramlengths：[2 3] Numngrams：18022 NumDocuments：154

查看长度2（bigrams）的10个最常见的n克。

topkngrams（袋，10，'ngramLengths'，2）

ans =10×3桌ngram count n gramengthent ____________________ ______________________________________________________________________________________________自己的“”“ 13 2”你的“甜蜜”“” 12 2“你的“爱”“” 11 2“ dost”，you''''''“ 10 2”你，你“ wilt”“ wilt'“” 10 2“ love”“”你“” 9 2

查看长度3的10个最常见的n-grams（Trigrams）。

topkngrams（袋，10，'ngramLengths'，3）

ans =10×3桌ngram count ngramLength ___________________________________________________________________________________________________“我的”“眼”“心” 3 3“你”“ shalt”“ find” 3 3“ fair”“ true”“ true” 3 3“ th ou th ou fair”“ fair” 2 3“ love”“ th y thy”“ self” 2 3“你的”“自我”“你” 2 3

输入参数

全部收缩

`包`-输入袋型号模型
`Bagofngrams`目的

输入n-grams模型，指定为Bagofngrams目的。

`k`-n克数
非负整数

返回的n-gram数量，指定为正整数。

例子：20

名称值参数

将可选的参数对name1 = value1，...，namen = valuen，在哪里姓名是参数名称和价值是相应的值。名称值参数必须在其他参数之后出现，但是对的顺序并不重要。

在R2021a之前，请使用逗号分隔每个名称和值，并附上姓名用引号。

例子：“ ngramLengths”，[2 3]指定返回顶级的大型和trigrams。

`ngramLength`-n克长度
正整数|积极整数的向量

n克长度，指定为逗号分隔对，由'ngramLengths'以及积极的整数或正整数的向量。

如果指定ngramLength，然后该函数仅返回这些长度的n-gram。如果您不指定ngramLength，然后该函数返回顶部的n-grams，而不论长度如何。

例子：[1 2 3]

`无知酶`-忽略案例的选项
`错误的`（默认）|`真的`

忽略案例的选项，指定为逗号分隔对“无知酶”以及以下一个：

错误的- 将n-grams视为仅因情况而差异为单独的n-gram。
真的- 将n-grams视为仅因情况而不同的n-gram和合并计数。

`forceleloutput`-指示器以将输出返回为单元阵列
`错误的`（默认）|`真的`

强迫输出作为单元阵列返回的指标，指定为逗号分隔对，由“ forceleloutput”和真的或者错误的。

数据类型：逻辑

输出参数

全部收缩

`TBL`- 顶部n-gram的表
表|桌子的单元格数

按频率顺序或表格的单元格数组排序的顶部n-gram表。

该表具有以下列：

`ngram`	n-gram指定为字符串向量
`数数`	n-gram出现在n-grams模型中的次数。
`ngramLength`	n-gram的长度。

如果包是非量表阵列或“ forceleloutput”是真的，然后该函数将输出返回作为表的单元格数组。单元格数组中的每个元素都是一个表，包含一个相应元素的顶部n-gram包。

版本历史记录

在R2018A中引入

也可以看看

topkngram

句法

描述

例子

最常见的n-grams模型大型

计数不同长度的n克

输入参数

包-输入袋型号模型Bagofngrams目的

k-n克数非负整数

名称值参数

ngramLength-n克长度正整数|积极整数的向量

无知酶-忽略案例的选项错误的（默认）|真的

forceleloutput-指示器以将输出返回为单元阵列错误的（默认）|真的

输出参数

TBL- 顶部n-gram的表表|桌子的单元格数

版本历史记录

也可以看看

话题

`包`-输入袋型号模型
`Bagofngrams`目的

`k`-n克数
非负整数

`ngramLength`-n克长度
正整数|积极整数的向量

`无知酶`-忽略案例的选项
`错误的`（默认）|`真的`

`forceleloutput`-指示器以将输出返回为单元阵列
`错误的`（默认）|`真的`

`TBL`- 顶部n-gram的表
表|桌子的单元格数