主要内容

topkngrams

最常见的字格

描述

例子

资源描述= topkngrams ()返回一个表清单中最常见的五个字格bag-of-n-grams模型。这个函数,默认情况下,是区分大小写的。

例子

资源描述= topkngrams (,k)列出了k最常见字格bag-of-n-grams模型。这个函数,默认情况下,是区分大小写的。

例子

资源描述= topkngrams (___,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

创建一个表的最常见的三元bag-of-n-grams模型。

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-n-grams模型。

袋= bagOfNgrams(文档)
袋= bagOfNgrams属性:数量:(154×8799双)词汇:[1×3092弦]Ngrams:[8799×2字符串]NgramLengths: 2 NumNgrams: 8799 NumDocuments: 154

发现5元。

台= topkngrams(袋)
台=5×3表Ngram计数NgramLength ___________ _____……“你”“艺术”34 2“我”“眼”15 2“你”“自我”14 2“你”“难道”13 2“我”“拥有”13 2

发现前十元。

台= topkngrams(袋,10)
台=10×3表Ngram计数NgramLength _________________ _____……“你”“艺术”34岁的“我”“眼”15 2 14“你”“自我”“你”“难道”13 2“我”“拥有”13 2“你”“甜”12 2 11“你”“爱”“”“你”10 2“你”“枯萎”2“爱”“你”9 2

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-n-grams模型。长度为2和3的数字格(三元及三元模型),指定“NgramLengths”的向量3 [2]

袋= bagOfNgrams(文档,“NgramLengths”3 [2])
袋= bagOfNgrams属性:数量:(154×18022双)词汇:[1×3092弦]Ngrams:[18022×3字符串]NgramLengths: [2 3] NumNgrams: 18022 NumDocuments: 154

查看10最常见的字格长度2(三元)。

topkngrams(包10“NGramLengths”,2)
ans =10×3表Ngram计数NgramLength _______________________ _____……“你”“艺术”“34 2“我”“眼睛”“15 2“你”“自我”“14 2“你”“”“13 2“我”“拥有”“13 2“你”“甜”“12 2“你”“爱”“11 2“”“你”“10 2“你”“枯萎”“10 2“爱”“你”“9 2

查看10最常见的字格长度3(三)。

topkngrams(包10“NGramLengths”3)
ans =10×3表Ngram计数NgramLength ____________________________ _____……“你”“香”“自我”4 3“为什么”“”“你”4 3“你”“自我”“你”3 3“你”“你”“自我”3 3“我”“眼睛”“心”3 3“你”“要”“找到”3 3“公平”“善良”“true”3 3“你”“艺术”“公平”2 3“爱”“你”“自我”2 3“你”“自我”“你”2 3

输入参数

全部折叠

输入bag-of-n-grams模型,指定为一个bagOfNgrams对象。

- gram返回,指定为一个正整数。

例子:20.

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“NgramLengths”, [2 3]指定返回顶部一定范围和三元模型。

语法长度、指定为逗号分隔组成的“NgramLengths”和一个正整数或一个向量的正整数。

如果您指定NgramLengths,那么函数返回字格的长度。如果你不指定NgramLengths,那么函数返回顶部- gram长度无关。

例子:(1 2 3)

选项来忽略大小写,指定为逗号分隔组成的“IgnoreCase”和下列之一:

  • ——治疗- gram不同只有作为单独的字格。

  • 真正的——仅有案件不同的治疗- gram相同的语法和合并计算。

迫使输出指标作为细胞数组,返回指定为逗号分隔组成的“ForceCellOutput”真正的

数据类型:逻辑

输出参数

全部折叠

表频率的大小排序的前字格或单元阵列的表。

表列如下:

Ngram 语法指定为一个字符串向量
语法bag-of-n-grams模型中出现的次数。
NgramLength 语法的长度。

如果是一种基本数组或“ForceCellOutput”真正的,那么函数返回单元阵列的输出表。单元阵列中的每个元素是一个表,它包含字格对应元素的顶部

版本历史

介绍了R2018a