topkngrams

最常见的字格

所有的页面崩溃

语法

台= topkngrams(袋)

台= topkngrams(袋、k)

台= topkngrams (___、名称、值)

描述

例子

资源描述= topkngrams (袋)返回一个表清单中最常见的五个字格bag-of-n-grams模型袋。这个函数,默认情况下,是区分大小写的。

例子

资源描述= topkngrams (袋,k)列出了k最常见字格bag-of-n-grams模型袋。这个函数,默认情况下,是区分大小写的。

例子

资源描述= topkngrams (___,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

最常见的三元Bag-of-N-Grams模型

打开生活的脚本

创建一个表的最常见的三元bag-of-n-grams模型。

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-n-grams模型。

袋= bagOfNgrams(文档)

袋= bagOfNgrams属性:数量:(154×8799双)词汇:[1×3092弦]Ngrams:[8799×2字符串]NgramLengths: 2 NumNgrams: 8799 NumDocuments: 154

发现5元。

台= topkngrams(袋)

台=5×3表Ngram计数NgramLength ___________ _____……“你”“艺术”34 2“我”“眼”15 2“你”“自我”14 2“你”“难道”13 2“我”“拥有”13 2

发现前十元。

台= topkngrams(袋,10)

台=10×3表Ngram计数NgramLength _________________ _____……“你”“艺术”34岁的“我”“眼”15 2 14“你”“自我”“你”“难道”13 2“我”“拥有”13 2“你”“甜”12 2 11“你”“爱”“”“你”10 2“你”“枯萎”2“爱”“你”9 2

不同长度的数字格

打开生活的脚本

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-n-grams模型。长度为2和3的数字格(三元及三元模型),指定“NgramLengths”的向量3 [2]。

袋= bagOfNgrams(文档,“NgramLengths”3 [2])

袋= bagOfNgrams属性:数量:(154×18022双)词汇:[1×3092弦]Ngrams:[18022×3字符串]NgramLengths: [2 3] NumNgrams: 18022 NumDocuments: 154

查看10最常见的字格长度2(三元)。

topkngrams(包10“NGramLengths”,2)

ans =10×3表Ngram计数NgramLength _______________________ _____……“你”“艺术”“34 2“我”“眼睛”“15 2“你”“自我”“14 2“你”“”“13 2“我”“拥有”“13 2“你”“甜”“12 2“你”“爱”“11 2“”“你”“10 2“你”“枯萎”“10 2“爱”“你”“9 2

查看10最常见的字格长度3(三)。

topkngrams(包10“NGramLengths”3)

ans =10×3表Ngram计数NgramLength ____________________________ _____……“你”“香”“自我”4 3“为什么”“”“你”4 3“你”“自我”“你”3 3“你”“你”“自我”3 3“我”“眼睛”“心”3 3“你”“要”“找到”3 3“公平”“善良”“true”3 3“你”“艺术”“公平”2 3“爱”“你”“自我”2 3“你”“自我”“你”2 3

输入参数

全部折叠

`袋`- - - - - -输入bag-of-n-grams模型
`bagOfNgrams`对象

输入bag-of-n-grams模型,指定为一个bagOfNgrams对象。

`k`- - - - - -数量的字格
非负整数

- gram返回,指定为一个正整数。

例子:20.

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“NgramLengths”, [2 3]指定返回顶部一定范围和三元模型。

`NgramLengths`- - - - - -语法的长度
正整数|向量的正整数

语法长度、指定为逗号分隔组成的“NgramLengths”和一个正整数或一个向量的正整数。

如果您指定NgramLengths,那么函数返回字格的长度。如果你不指定NgramLengths,那么函数返回顶部- gram长度无关。

例子:(1 2 3)

`IgnoreCase`- - - - - -选项来忽略大小写
`假`(默认)|`真正的`

选项来忽略大小写,指定为逗号分隔组成的“IgnoreCase”和下列之一:

假——治疗- gram不同只有作为单独的字格。
真正的——仅有案件不同的治疗- gram相同的语法和合并计算。

`ForceCellOutput`- - - - - -迫使输出指标作为细胞数组返回
`假`(默认)|`真正的`

迫使输出指标作为细胞数组,返回指定为逗号分隔组成的“ForceCellOutput”和真正的或假。

数据类型:逻辑

输出参数

全部折叠

`资源描述`——表的字格
表|单元阵列的表

表频率的大小排序的前字格或单元阵列的表。

表列如下:

`Ngram`	语法指定为一个字符串向量
`数`	语法bag-of-n-grams模型中出现的次数。
`NgramLength`	语法的长度。

如果袋是一种基本数组或“ForceCellOutput”是真正的,那么函数返回单元阵列的输出表。单元阵列中的每个元素是一个表,它包含字格对应元素的顶部袋。

版本历史

介绍了R2018a

另请参阅

topkngrams

语法

描述

例子

最常见的三元Bag-of-N-Grams模型

不同长度的数字格

输入参数

袋- - - - - -输入bag-of-n-grams模型bagOfNgrams对象

k- - - - - -数量的字格非负整数

名称-值参数

NgramLengths- - - - - -语法的长度正整数|向量的正整数

IgnoreCase- - - - - -选项来忽略大小写假(默认)|真正的

ForceCellOutput- - - - - -迫使输出指标作为细胞数组返回假(默认)|真正的

输出参数

资源描述——表的字格表|单元阵列的表

版本历史

另请参阅

主题

`袋`- - - - - -输入bag-of-n-grams模型
`bagOfNgrams`对象

`k`- - - - - -数量的字格
非负整数

`NgramLengths`- - - - - -语法的长度
正整数|向量的正整数

`IgnoreCase`- - - - - -选项来忽略大小写
`假`(默认)|`真正的`

`ForceCellOutput`- - - - - -迫使输出指标作为细胞数组返回
`假`(默认)|`真正的`

`资源描述`——表的字格
表|单元阵列的表