removeNgrams

从n-g - bag模型中移除n-g

折叠所有页面

语法

newBag = removeNgrams(包，ngrams)

newBag = removeNgrams(包，ngrams，'IgnoreCase'，true)

newBag = removeNgrams(包，idx)

描述

例子

newBag= removeNgrams (袋，ngrams）从n-grams袋模型中移除指定的n-grams袋．缺省情况下，该函数区分大小写。

newBag= removeNgrams (袋，ngrams“IgnoreCase”,真的)删除忽略大小写的n-grams。

例子

newBag= removeNgrams (袋，idx）中的数值或逻辑索引指定n-grams袋里。Ngrams．此语法与newBag = removeNgrams(bag,bag. ngrams (idx，:))．

例子

全部折叠

从N-Grams袋模型中移除N-Grams

打开实时脚本

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，用空格分隔单词。从中提取文本sonnetsPreprocessed.txt，以换行符将文本分割为文档，然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

创建n-grams袋模型。

(文件)

bag = bagOfNgrams with properties:计数:[154×8799 double]词汇:[1×3092 string] Ngrams: [8799×2 string] ngramlength2 NumNgrams: 8799 NumDocuments: 154

查看前五个n-grams。

topkngrams(包,5)

ans =5×3表Ngram计数NgramLength  ________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2

去掉n字形符号(“你”“艺术”)而且(“你”“”)从模型中。查看新的前5个n-grams。

Ngrams = [.．.“你”“艺术”“你”“难道”];袋子= removeNgrams(袋子，ngrams);topkngrams(包,5)

ans =5×3表Ngram计数NgramLength  _________________ _____ ___________ " 我的“眼睛”15 2”你的“自我”14 2”我“的“13 2”你的“甜”12 2”你“爱”11 2

根据索引从N-Grams袋模型中去除N-Grams

打开实时脚本

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

创建n-grams袋模型。

(文件)

数量:[154x8799双]词汇:[“最美丽的”“生物”“欲望”“增加”“因此”“美人”“玫瑰”“可能”“永远”“死亡”“成熟的”“时间”“死亡”“温柔的”“继承人”“负担”“记忆”“你”“承包”…] Ngrams: [8799x2 string] ngramsizes: 2 NumNgrams: 8799 NumDocuments: 154

查看模型中的前十个n-gram。

bag.Ngrams (1:10,:)

ans =10 x2字符串"最美的" "生物" "生物" "欲望" "欲望" "增加" "增加" "因此" "因此" "美人" "美人" "玫瑰" "玫瑰" "可能" "可能" "永远" "永远" "死亡" "死亡" "成熟者"

从模型中删除第9和第10个n-grams。查看前十个n-gram的新列表。

Idx = [9 10];bag = removeNgrams(bag,idx);bag.Ngrams (1:10,:)

ans =10 x2字符串"最美的" "生物" "生物" "欲望" "欲望" "增加" "增加" "因此" "因此" "美人" "美人" "玫瑰" "玫瑰" "可能" "可能" "永远" "成熟" "时间" "时间" "死亡"

输入参数

全部折叠

`袋`- - - - - -输入n-grams袋模型
`bagOfNgrams`对象

输入n-grams袋模型，指定为bagOfNgrams对象。

`ngrams`- - - - - -要移除N-grams
字符串数组|特征向量|字符向量的单元格数组

要删除的N-grams，指定为字符串数组、字符向量或字符向量的单元格数组。

如果ngrams是字符串数组还是单元格数组，那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-grams的个数，和maxN是最大n向量的长度。如果ngrams是字符向量，则它表示单个单词(unigram)。

的价值ngrams (i, j)是j第一个字我语法。如果字数在我n小于maxN的剩余项我第Th行ngrams是空的。

例子:[" " "”;“榜样”;“例子”“”)

数据类型:字符串|字符|细胞

`idx`- - - - - -去除n-grams的指数
数值指标向量|逻辑指标向量

要删除的n-grams的索引，指定为数值索引的向量或逻辑索引的向量。的指数idx的行对应袋里。Ngrams．

例子:[1 5 10]

版本历史

在R2018a中引入

另请参阅