主要内容

removeInfrequentNgrams

从包-n-grams模型中删除不常见的n-g

描述

例子

newBag= removeInfrequentNgrams (删除最多出现的n-g从包-n-grams模型得到的总时间.缺省情况下,该函数区分大小写。

例子

newBag= removeInfrequentNgrams (“NgramLengths”,长度仅删除长度为长度.缺省情况下,该函数区分大小写。

newBag= removeInfrequentNgrams (___“IgnoreCase”,真的)删除最多出现的n-g次忽略的情况。如果n-gram仅按大小写不同,则合并相应的计数。

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个包-n-grams模型。指定要计数双字组(单词对)和三元组(单词的三元组)。

袋= bagOfNgrams(文档,“NgramLengths”3 [2])
bag = bagOfNgrams with properties: Counts: [154x18022 double]词汇:[1x3092 string] Ngrams: [18022x3 string] ngramlength: [2 3] NumNgrams: 18022 NumDocuments: 154

删除总共出现2次或更少次数的任意长度的n-g。

袋= removeInfrequentNgrams(袋、2)
词汇:[1x73 string] Ngrams: [103x3 string] ngramlength: [2 3] NumNgrams: 103 NumDocuments: 154

删除总共出现四次或更少的双字。

包= removeInfrequentNgrams(包4“NgramLengths”,2)
词汇:[1x30 string] Ngrams: [41x3 string] ngramlength: [2 3] NumNgrams: 41 NumDocuments: 154

输入参数

全部折叠

输入袋式n-grams模型,指定为bagOfNgrams对象。

计数阈值,指定为正整数。函数删除出现的n-g总次数或更少。

N-gram长度,指定为正整数或正整数向量。

如果您指定长度,函数只删除指定长度的不常见n-g。如果没有指定长度,则无论长度如何,该函数都会删除不常见的n-g。

例子:(1 2 3)

输出参数

全部折叠

输出包-n-grams模型,返回为bagOfNgrams对象。

介绍了R2018a