removeInfrequentNgrams

从包-n-grams模型中删除不常见的n-g

折叠所有页面

语法

newBag = removeInfrequentNgrams(包,数量)

newBag = removeInfrequentNgrams(袋、计数、NgramLengths,长度)

newBag = removeInfrequentNgrams (＿＿＿“IgnoreCase”,真的)

描述

例子

newBag= removeInfrequentNgrams (袋，数）删除最多出现的n-g数从包-n-grams模型得到的总时间袋．缺省情况下，该函数区分大小写。

例子

newBag= removeInfrequentNgrams (袋，数“NgramLengths”,长度）仅删除长度为长度．缺省情况下，该函数区分大小写。

newBag= removeInfrequentNgrams (＿＿＿“IgnoreCase”,真的)删除最多出现的n-g数次忽略的情况。如果n-gram仅按大小写不同，则合并相应的计数。

例子

全部折叠

从包- n - g模型中删除不频繁n - g

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗，单词之间用空格分隔。将文本从sonnetsPreprocessed.txt，将文本以换行符分割为文档，然后标记文档。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个包-n-grams模型。指定要计数双字组(单词对)和三元组(单词的三元组)。

袋= bagOfNgrams(文档,“NgramLengths”3 [2])

bag = bagOfNgrams with properties: Counts: [154x18022 double]词汇:[1x3092 string] Ngrams: [18022x3 string] ngramlength: [2 3] NumNgrams: 18022 NumDocuments: 154

删除总共出现2次或更少次数的任意长度的n-g。

袋= removeInfrequentNgrams(袋、2)

词汇:[1x73 string] Ngrams: [103x3 string] ngramlength: [2 3] NumNgrams: 103 NumDocuments: 154

删除总共出现四次或更少的双字。

包= removeInfrequentNgrams(包4“NgramLengths”,2)

词汇:[1x30 string] Ngrams: [41x3 string] ngramlength: [2 3] NumNgrams: 41 NumDocuments: 154

输入参数

全部折叠

`袋`- - - - - -输入bag-of-n-grams模型
`bagOfNgrams`对象

输入袋式n-grams模型，指定为bagOfNgrams对象。

`数`- - - - - -计算阈值
正整数

计数阈值，指定为正整数。函数删除出现的n-g数总次数或更少。

`长度`- - - - - -语法的长度
正整数|正整数向量

N-gram长度，指定为正整数或正整数向量。

如果您指定长度，函数只删除指定长度的不常见n-g。如果没有指定长度，则无论长度如何，该函数都会删除不常见的n-g。

例子:(1 2 3)

输出参数

全部折叠

`newBag`-输出包-n-grams模型
`bagOfNgrams`对象

输出包-n-grams模型，返回为bagOfNgrams对象。

另请参阅

主题

介绍了R2018a

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

立即下载

removeInfrequentNgrams

语法

描述

例子

从包- n - g模型中删除不频繁n - g

输入参数

袋- - - - - -输入bag-of-n-grams模型bagOfNgrams对象

数- - - - - -计算阈值正整数

长度- - - - - -语法的长度正整数|正整数向量

输出参数

newBag-输出包-n-grams模型bagOfNgrams对象

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`袋`- - - - - -输入bag-of-n-grams模型
`bagOfNgrams`对象

`数`- - - - - -计算阈值
正整数

`长度`- - - - - -语法的长度
正整数|正整数向量

`newBag`-输出包-n-grams模型
`bagOfNgrams`对象