主要内容

topkngrams

最常见的字格

描述

例子

资源描述= topkngrams (返回一个表,其中列出了bag-of-n-grams模型中最常见的5个n-g.缺省情况下,该函数区分大小写。

例子

资源描述= topkngrams (k列出了kn-g包模型中最常见的n-g.缺省情况下,该函数区分大小写。

例子

资源描述= topkngrams (___名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

创建一个包含bag-of-n-grams模型中最常见的双gram的表。

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个包-n-grams模型。

袋= bagOfNgrams(文档)
[1×3092 string] Ngrams: [8799×2 string] ngramlength: 2 NumNgrams: 8799 NumDocuments: 154

找出排名前5位的连词。

台= topkngrams(袋)
台=5×3表Ngram计数NgramLength  ________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2

找出十大连词。

台= topkngrams(袋,10)
台=10×3表Ngram计数NgramLength  _________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2”你的“甜”12 2”你的“爱”11 2”难道你”““10 2”“枯萎”10 2”爱“你”9 2

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个包-n-grams模型。要计数长度为2和3的n-g(双格和三元组),请指定“NgramLengths”作为向量3 [2]

袋= bagOfNgrams(文档,“NgramLengths”3 [2])
[1×3092 string] Ngrams: [18022×3 string] ngramlength: [2 3] NumNgrams: 18022 NumDocuments: 154

查看长度为2的10个最常见的n-g(双格)。

topkngrams(包10“NGramLengths”, 2)
ans =10×3表Ngram计数NgramLength  _______________________ _____ ___________ " 你”“艺术”“我“34 2”“眼睛”““15 2”你”“自我”““14 2”你”“你”“我“13 2”“自己的”“13 2”你”“香”““12 2”你”“爱”““11 2”难道你”“你”““10 2”“要”““10 2”爱情”“你”““9 2

查看长度为3的10个最常见的n-g(三元组)。

topkngrams(包10“NGramLengths”3)
ans =10×3表Ngram计数NgramLength  ____________________________ _____ ___________ " 你”“香”“自我”4 3“为什么”“难道”“你“4 3”“自我”“你“3 3”你”“你”“自我”3 3“我”“眼睛”“心”3 3“你”“要”“找到”3 3“公平”“善意”“真实”3 3”你”“艺术”“公平”2 3“爱”你的“自我”2 3“你”“自我”“你”2 3

输入参数

全部折叠

输入袋式n-grams模型,指定为bagOfNgrams对象。

要返回的n-g数,指定为正整数。

例子:20.

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“NgramLengths”,[2 3]指定返回顶部的双字和三元组。

N-gram长度,指定为逗号分隔的对,由“NgramLengths”一个正整数或者一个正整数向量。

如果您指定NgramLengths,则该函数只返回这些长度的n个g。如果没有指定NgramLengths,则该函数返回最前面的n-g,而不管长度如何。

例子:(1 2 3)

选项忽略大小写,指定为逗号分隔的对,由“IgnoreCase”以及以下其中之一:

  • -将只按大小写不同的n-g视为独立的n-g。

  • 真正的-将大小写不同的n-gram视为相同的n-gram,并合并计数。

强制将输出作为单元格数组返回的指示符,指定为由逗号分隔的对组成“ForceCellOutput”真正的

数据类型:逻辑

输出参数

全部折叠

按频率顺序排列的最上面n个g的表或表的单元格数组。

表中有以下几列:

Ngram 指定为字符串向量的N-gram
n-gram出现在bag-of-n-grams模型中的次数。
NgramLength n-gram的长度。

如果是非标量数组还是“ForceCellOutput”真正的,然后该函数将输出作为表的单元格数组返回。单元格数组中的每个元素都是一个表,其中包含对应元素的顶部n-g

介绍了R2018a