主要内容

重塑图

从n克袋模型中删除n克

描述

实例

纽巴格=重塑图(纸袋,英格拉姆)从n克袋模型中删除指定的n克纸袋. 默认情况下,该函数区分大小写。

纽巴格=重塑图(纸袋,英格拉姆,'IgnoreCase',正确)删除忽略大小写的n-grams。

实例

纽巴格=重塑图(纸袋,idx)按中的数字或逻辑索引指定n-gram袋装. 此语法与newBag=removeNgrams(bag,bag.Ngrams(idx,:)).

例子

全部崩溃

加载示例数据。档案十四行诗预处理.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本十四行诗预处理.txt,以换行符将文本拆分为文档,然后标记文档。

文件名=“十四行诗预处理.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);

创建一个n-bag-of-n-grams模型。

袋=袋(文件)
bag=bagofgrams带属性:计数[154×8799双精度]词汇[1×3092字符串]Ngrams[8799×2字符串]ngram长度:2个numgrams:8799个NumDocuments:154

查看前五个n-gram。

topkngrams(袋,5个)
ans=5×3表你是我的“眼睛”你的“自我”你“拥有”我的“自己”

移除n-g[“你”是][“你”做的事]从模型中。查看新的前5个n-gram。

ngrams=[...“你”“艺术”“你”“多斯特”]; bag=拆卸图(bag、ngrams);topkngrams(袋,5个)
ans=5×3表我的眼睛你的“自我”我的“拥有”你的“甜蜜”你的“爱”

加载示例数据。档案十四行诗预处理.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本十四行诗预处理.txt,以换行符将文本拆分为文档,然后标记文档。

文件名=“十四行诗预处理.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);

创建一个n-bag-of-n-grams模型。

袋=袋(文件)
bag=BagofGrams,属性:计数:[154x8799 double]词汇:[1x3092字符串]Ngrams:[8799x2字符串]ngram长度:2个numgrams:8799个NumDocuments:154

查看模型中的前十个n-gram。

袋式气相色谱(1:10,:)
ans=10x2串“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的

从模型中移除第9个和第10个n-gram。查看前十个n克的新列表。

idx=[9 10];bag=拆卸图(bag,idx);袋式气相色谱(1:10,:)
ans=10x2串“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物

输入参数

全部崩溃

输入n克袋型号,指定为巴戈夫克对象

要删除的N-grams,指定为字符串数组、字符向量或字符向量的单元格数组。

如果英格拉姆是字符串数组或单元格数组,则它具有大小数值-借-马克斯哪里数值是n克的数量,并且马克斯是最大n克的长度。如果英格拉姆是一个字符向量,则它表示一个单词(单字)。

价值ngrams(i,j)J第四个字第n克。如果在th n-gram小于马克斯,然后是第排英格拉姆这些都是空的。

例子:[“一个”;“一个例子”;“例子”]

数据类型:一串|烧焦|单间牢房

要删除的n-gram索引,指定为数值索引向量或逻辑索引向量。中的索引idx对应于袋装.

例子:[1 5 10]

R2018a中引入