topkngrams

最频繁的n字母

折叠所有页面

语法

topkngrams(包)

TBL = topkngrams(包，k)

topkngrams(___、名称、值)

描述

例子

资源描述= topkngrams (袋）返回一个表，其中列出了在n-grams袋模型中最常见的五个n-grams袋．缺省情况下，该函数区分大小写。

例子

资源描述= topkngrams (袋，k）列出了k最常见的n-grams出现在n-grams袋模型中袋．缺省情况下，该函数区分大小写。

例子

资源描述= topkngrams (___，名称,值）使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

n - grams袋模型的最频繁biggram

打开实时脚本

创建一个包含袋子-n-grams模型中最常见的biggram的表。

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，用空格分隔单词。从中提取文本sonnetsPreprocessed.txt，以换行符将文本分割为文档，然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

创建一个n-grams袋模型。

(文件)

bag = bagOfNgrams with properties:计数:[154×8799 double]词汇:[1×3092 string] Ngrams: [8799×2 string] ngramlength2 NumNgrams: 8799 NumDocuments: 154

找出前5个bigrams。

topkngrams(包)

台=5×3表Ngram计数NgramLength  ________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2

找出排名前10位的bigrams。

topkngrams(包，10)

台=10×3表Ngram计数NgramLength  _________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2”你的“甜”12 2”你的“爱”11 2”难道你”““10 2”“枯萎”10 2”爱“你”9 2

数n个不同长度的克

打开实时脚本

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

创建一个n-grams袋模型。要计数长度为2和3的n-grams (biggram和triggram)，请指定“NgramLengths”是向量3 [2]．

包= bagOfNgrams(文件，“NgramLengths”3 [2])

bag = bagOfNgrams with properties:计数:[154×18022 double]词汇:[1×3092 string] Ngrams: [18022×3 string] ngramlength: [2 3] NumNgrams: 18022 NumDocuments: 154

查看10个最常见的长度为2的n-gram。

topkngrams(包10“NGramLengths”, 2)

ans =10×3表Ngram计数NgramLength  _______________________ _____ ___________ " 你”“艺术”“我“34 2”“眼睛”““15 2”你”“自我”““14 2”你”“你”“我“13 2”“自己的”“13 2”你”“香”““12 2”你”“爱”““11 2”难道你”“你”““10 2”“要”““10 2”爱情”“你”““9 2

查看10个最常见的长度为3的n-gram(三元图)。

topkngrams(包10“NGramLengths”3)

ans =10×3表Ngram计数NgramLength  ____________________________ _____ ___________ " 你”“香”“自我”4 3“为什么”“难道”“你“4 3”“自我”“你“3 3”你”“你”“自我”3 3“我”“眼睛”“心”3 3“你”“要”“找到”3 3“公平”“善意”“真实”3 3”你”“艺术”“公平”2 3“爱”你的“自我”2 3“你”“自我”“你”2 3

输入参数

全部折叠

`袋`- - - - - -输入n-grams袋模型
`bagOfNgrams`对象

输入n-grams袋模型，指定为bagOfNgrams对象。

`k`- - - - - -n格数
非负整数

要返回的n-grams个数，指定为正整数。

例子:20.

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后，但对的顺序无关紧要。

在R2021a之前，使用逗号分隔每个名称和值，并将其括起来的名字在报价。

例子:“NgramLengths”,[2 3]指定返回顶部的双字母组合和三字母组合。

`NgramLengths`- - - - - -语法的长度
正整数|正整数向量

n格长度，指定为由逗号分隔的对组成“NgramLengths”一个正整数或者一个正整数的向量。

如果你指定NgramLengths，则该函数只返回这些长度的n-gram。如果您没有指定NgramLengths，则函数返回顶部n-grams，而不考虑长度。

例子:[1 2 3]

`IgnoreCase`- - - - - -选项忽略大小写
`假`(默认)|`真正的`

选项忽略大小写，指定为逗号分隔的对，由“IgnoreCase”和以下其中之一:

假-将仅因大小写不同而不同的n-grams视为单独的n-grams。
真正的-将只因大小写不同的n-gram视为相同的n-gram并合并计数。

`ForceCellOutput`- - - - - -用于强制将输出作为单元格数组返回的指示器
`假`(默认)|`真正的`

指示符，用于强制输出作为单元格数组返回，指定为逗号分隔的对，由“ForceCellOutput”而且真正的或假．

数据类型:逻辑

输出参数

全部折叠

`资源描述`-表的顶部n-grams
表|单元格表数组

表的顶部n-grams排序的频率或单元格数组的表。

该表包括以下几列:

`Ngram`	N-gram指定为字符串向量
`数`	n-grams出现在bag-of-n-grams模型中的次数。
`NgramLength`	n向量的长度。

如果袋是非标量数组还是“ForceCellOutput”是真正的，则该函数将输出作为表格单元格数组返回。单元格数组中的每个元素都是一个表，其中包含的对应元素的顶部n-grams袋．

版本历史

在R2018a中引入

另请参阅

topkngrams

语法

描述

例子

n - grams袋模型的最频繁biggram

数n个不同长度的克

输入参数

袋- - - - - -输入n-grams袋模型bagOfNgrams对象

k- - - - - -n格数非负整数

名称-值参数

NgramLengths- - - - - -语法的长度正整数|正整数向量

IgnoreCase- - - - - -选项忽略大小写假(默认)|真正的

ForceCellOutput- - - - - -用于强制将输出作为单元格数组返回的指示器假(默认)|真正的

输出参数

资源描述-表的顶部n-grams表|单元格表数组

版本历史

另请参阅

主题

`袋`- - - - - -输入n-grams袋模型
`bagOfNgrams`对象

`k`- - - - - -n格数
非负整数

`NgramLengths`- - - - - -语法的长度
正整数|正整数向量

`IgnoreCase`- - - - - -选项忽略大小写
`假`(默认)|`真正的`

`ForceCellOutput`- - - - - -用于强制将输出作为单元格数组返回的指示器
`假`(默认)|`真正的`

`资源描述`-表的顶部n-grams
表|单元格表数组