文档帮助中心文档
从包-n-grams模型中删除不常见的n-g
newBag = removeInfrequentNgrams(包,数量)
newBag = removeInfrequentNgrams(袋、计数、NgramLengths,长度)
newBag = removeInfrequentNgrams (___“IgnoreCase”,真的)
例子
newBag= removeInfrequentNgrams (袋,数)删除最多出现的n-g数从包-n-grams模型得到的总时间袋.缺省情况下,该函数区分大小写。
newBag= removeInfrequentNgrams (袋,数)
newBag
袋
数
newBag= removeInfrequentNgrams (袋,数“NgramLengths”,长度)仅删除长度为长度.缺省情况下,该函数区分大小写。
newBag= removeInfrequentNgrams (袋,数“NgramLengths”,长度)
长度
newBag= removeInfrequentNgrams (___“IgnoreCase”,真的)删除最多出现的n-g数次忽略的情况。如果n-gram仅按大小写不同,则合并相应的计数。
newBag= removeInfrequentNgrams (___“IgnoreCase”,真的)
全部折叠
加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
创建一个包-n-grams模型。指定要计数双字组(单词对)和三元组(单词的三元组)。
袋= bagOfNgrams(文档,“NgramLengths”3 [2])
bag = bagOfNgrams with properties: Counts: [154x18022 double]词汇:[1x3092 string] Ngrams: [18022x3 string] ngramlength: [2 3] NumNgrams: 18022 NumDocuments: 154
删除总共出现2次或更少次数的任意长度的n-g。
袋= removeInfrequentNgrams(袋、2)
词汇:[1x73 string] Ngrams: [103x3 string] ngramlength: [2 3] NumNgrams: 103 NumDocuments: 154
删除总共出现四次或更少的双字。
包= removeInfrequentNgrams(包4“NgramLengths”,2)
词汇:[1x30 string] Ngrams: [41x3 string] ngramlength: [2 3] NumNgrams: 41 NumDocuments: 154
bagOfNgrams
输入袋式n-grams模型,指定为bagOfNgrams对象。
计数阈值,指定为正整数。函数删除出现的n-g数总次数或更少。
N-gram长度,指定为正整数或正整数向量。
如果您指定长度,函数只删除指定长度的不常见n-g。如果没有指定长度,则无论长度如何,该函数都会删除不常见的n-g。
例子:(1 2 3)
(1 2 3)
输出包-n-grams模型,返回为bagOfNgrams对象。
bagOfNgrams|bagOfWords|removeEmptyDocuments|removeInfrequentWords|removeNgrams|tfidf|tokenizedDocument|topkngrams
bagOfWords
removeEmptyDocuments
removeInfrequentWords
removeNgrams
tfidf
tokenizedDocument
topkngrams
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系