文档帮助中心文档
从n克袋模型中删除n克
NEBAG=拆卸图(行李、ngrams)
NEBAG=拆卸图(行李、ngrams、'IgnoreCase',真)
NEBAG=拆卸图(行李,idx)
实例
纽巴格=重塑图(纸袋,英格拉姆)从n克袋模型中删除指定的n克纸袋. 默认情况下,该函数区分大小写。
纽巴格=重塑图(纸袋,英格拉姆)
纽巴格
纸袋
英格拉姆
纽巴格=重塑图(纸袋,英格拉姆,'IgnoreCase',正确)删除忽略大小写的n-grams。
纽巴格=重塑图(纸袋,英格拉姆,'IgnoreCase',正确)
纽巴格=重塑图(纸袋,idx)按中的数字或逻辑索引指定n-gram袋装. 此语法与newBag=removeNgrams(bag,bag.Ngrams(idx,:)).
纽巴格=重塑图(纸袋,idx)
idx
袋装
newBag=removeNgrams(bag,bag.Ngrams(idx,:))
全部崩溃
加载示例数据。档案十四行诗预处理.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本十四行诗预处理.txt,以换行符将文本拆分为文档,然后标记文档。
十四行诗预处理.txt
文件名=“十四行诗预处理.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);
创建一个n-bag-of-n-grams模型。
袋=袋(文件)
bag=bagofgrams带属性:计数[154×8799双精度]词汇[1×3092字符串]Ngrams[8799×2字符串]ngram长度:2个numgrams:8799个NumDocuments:154
查看前五个n-gram。
topkngrams(袋,5个)
ans=5×3表你是我的“眼睛”你的“自我”你“拥有”我的“自己”
移除n-g[“你”是]和[“你”做的事]从模型中。查看新的前5个n-gram。
[“你”是]
[“你”做的事]
ngrams=[...“你”“艺术”“你”“多斯特”]; bag=拆卸图(bag、ngrams);topkngrams(袋,5个)
ans=5×3表我的眼睛你的“自我”我的“拥有”你的“甜蜜”你的“爱”
bag=BagofGrams,属性:计数:[154x8799 double]词汇:[1x3092字符串]Ngrams:[8799x2字符串]ngram长度:2个numgrams:8799个NumDocuments:154
查看模型中的前十个n-gram。
袋式气相色谱(1:10,:)
ans=10x2串“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的
从模型中移除第9个和第10个n-gram。查看前十个n克的新列表。
idx=[9 10];bag=拆卸图(bag,idx);袋式气相色谱(1:10,:)
ans=10x2串“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物”“最美丽的生物
巴戈夫克
输入n克袋型号,指定为巴戈夫克对象
要删除的N-grams,指定为字符串数组、字符向量或字符向量的单元格数组。
如果英格拉姆是字符串数组或单元格数组,则它具有大小数值-借-马克斯哪里数值是n克的数量,并且马克斯是最大n克的长度。如果英格拉姆是一个字符向量,则它表示一个单词(单字)。
数值
马克斯
价值ngrams(i,j)是J第四个字我第n克。如果在我th n-gram小于马克斯,然后是我第排英格拉姆这些都是空的。
ngrams(i,j)
J
我
例子:[“一个”;“一个例子”;“例子”]
[“一个”;“一个例子”;“例子”]
数据类型:一串|烧焦|单间牢房
一串
烧焦
单间牢房
要删除的n-gram索引,指定为数值索引向量或逻辑索引向量。中的索引idx对应于袋装.
例子:[1 5 10]
[1 5 10]
巴戈夫克|巴格沃兹|删除空文档|移除频繁的内存|移除词|标记化文档
巴格沃兹
删除空文档
移除频繁的内存
移除词
标记化文档
您拥有此示例的修改版本。是否要用编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系当地办事处