主要内容

removeWords

从文档或单词袋模型中删除所选单词

描述

例子

newDocuments= removeWords (文档单词删除指定的单词文档.缺省情况下,该函数区分大小写。

例子

newBag= removeWords (单词从单词包模型中删除指定的单词.缺省情况下,该函数区分大小写。

newDocuments= removeWords (___“IgnoreCase”,真的)使用以前的语法删除忽略大小写的单词。

例子

newDocuments= removeWords (文档idx通过指定数字或逻辑索引删除单词idx里面的文字文档。词汇表.此语法与newDocuments = removeWords(documents,documents. words (idx))

例子

newBag= removeWords (idx通过指定数字或逻辑索引删除单词idx里面的文字袋里。词汇表.此语法与newBag = removeWords(bag,bag. words (idx))

例子

全部折叠

通过输入单词的字符串数组来从文档数组中删除单词removeWords

创建一个标记文档数组。

文档= tokenizedDocument([一个短句的例子“第二句短句”]);

去掉“短”和“秒”两个词。

文字= [“短”“第二”];newDocuments = removeWords(documents,words)
newDocuments = 2x1 tokenizedDocument: 5个token:一个句子2个token:一个句子

若要使用文档的语言详细信息删除默认的停止词列表,请使用removeStopWords

要删除自定义的停止词列表,请使用removeWords函数。方法返回的停止词列表stopWords作为一个起点。

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,词之间用空格隔开。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);

查看前几个文档。

文档(1:5)
ans = 5 x1 tokenizedDocument: 70令牌:美丽的生物欲望增加从而美丽玫瑰可能永远不会死成熟时间流逝的记忆交给娇嫩的后嗣收缩你的明亮的眼睛feedst你灯火焰selfsubstantial燃料使饥荒丰富是你的自我你的敌人你甜蜜的自我残忍你艺术世界新鲜点缀春天华丽使者你自己的花蕾埋葬你的内容投标乡下人makst浪费吝啬鬼遗憾世界其他贪吃的人吃世界由于严重你71令牌:四十个冬天将包围你的额头挖深壕你的美丽的田地你的年轻骄傲的制服凝视破烂的杂草价值小问你的美丽的谎言珍藏你的旺盛的日子说你自己的深凹陷的眼睛表示耻辱的贪婪的赞美赞美值得你的美丽你可以回答美丽的孩子我的将被计算证明美丽继承你的新造你老了你的血液温暖你感到寒冷65个标志:看你的镜子,告诉你的脸,你看时间的脸,另一个人的脸,你更新它的新修补,你欺骗世界,不受祝福的母亲,美丽的母亲,她的子宫蔑视耕作,你的耕作,喜爱的坟墓,自爱停止子孙你是你母亲的镜子,你唤回可爱的四月,你的窗口,你的年龄,尽管皱纹,你的黄金时光,你活着,单身,你的形象,死你71个标志:不节俭的可爱,你为什么在你自己身上花费你的美丽的遗产,大自然的遗产,什么也不给,不借,坦率,借贷,自由美丽的吝啬鬼,你为什么滥用慷慨的慷慨,你给了无利可图的高利贷者,你为什么有大笔的钱,却能生活的交易,你自己,你自己,你可爱的自己,欺骗自然,叫你走了,可接受的审计,你能留下你的无用的美丽坟墓,你活着的执行人61个记号:时间温柔的工作框架可爱的凝视每只眼睛都居住玩暴君同样不公平的公平的卓越永不休息的时间过夏天可怕的冬天迷惑树液被霜冻繁茂的叶子完全消失了美丽被白雪覆盖光光的每一个夏天蒸馏留下的液体囚犯被压抑的墙壁玻璃美丽的效果美丽被剥夺也没有记忆花蒸馏虽然冬天遇到李思显示物质仍然生活甜蜜

控件的输出开始,创建一个停止词列表stopWords函数。

customStopWords = [stopWords .“你”“你”“你”“难道”“难道”];

从文档中删除自定义停止字并查看前几个文档。

documents = removeWords(documents,customStopWords);文档(1:5)
最美丽的生物渴望增长因此美丽的玫瑰可能永远不会死成熟的时间死亡温柔的继承人可能承受记忆紧缩你自己的明亮的眼睛喂养灯火焰自我的燃料制造饥荒丰富的谎言自我敌人甜蜜的自我残酷的艺术世界新鲜的装饰预告华丽的春天你自己的芽埋藏的内容温柔的粗糙的makst浪费吝啬的怜悯世界否则贪食者吃世界应有的坟墓四十个冬天将包围眉毛挖深壕美丽的田野青年骄傲的制服凝视褴褛的杂草小价值被拥有问美丽的谎言宝藏繁荣的日子说你自己的深凹陷的眼睛控诉耻辱节约赞美赞美应得的美丽能回答美丽的孩子我的将计数用旧的借口证明美丽继承你的新造的艺术老血液温暖感觉寒冷52记号:镜子告诉脸看时间的脸形成另一个人的新鲜修复更新的欺骗的世界不受祝福的母亲美丽的母亲的子宫蔑视耕作耕作喜爱的坟墓自爱停止子孙后代艺术母亲的玻璃唤回可爱的四月盛年窗户你的年龄将不顾皱纹黄金的时间活着记住死亡单身你的形象死亡52个标志:不节俭的可爱,为什么把钱花在自己美丽的遗产上大自然的遗赠什么也不给借给坦率借给自由美丽的吝啬鬼,为什么滥用慷慨的慷慨,给无利可图的高利贷者,为什么巨额的金额,却能生活的流量,自己独自,自己甜蜜,自己欺骗,自然的要求,已去可接受的审计,能留下未使用的美丽坟墓,生命的遗嘱执行人小时温柔的工作框架可爱的凝视每只眼睛居住玩暴君同样不公平相当优秀永不休息的时间过夏天可怕的冬天迷惑树液检查霜强壮的叶子完全消失美丽被白雪覆盖裸露的每个夏天蒸馏留下的液体囚犯被压抑的墙壁玻璃美丽的效果美丽丧失也没有记忆花蒸馏虽然冬天遇到leese显示物质仍然生活甜蜜

通过输入数字索引的向量从文档中删除单词removeWords

创建一个标记文档数组。

文档= tokenizedDocument([“我爱MATLAB”“我爱MathWorks”])
我喜欢MATLAB 3代币:我喜欢MathWorks

查看词汇表文档

文档。词汇表
ans =1 x4字符串“我”“爱”“MATLAB”“MathWorks”

通过指定数值索引,从文档中删除词汇表的第一个和第三个单词3 [1]

Idx = [1 3];newDocuments = removeWords(documents,idx)
newDocuments = 2x1 tokenizedDocument: 1 tokens: love 2 tokens: love MathWorks

或者,您可以指定逻辑索引。

Idx = logical([1 0 1 0]);newDocuments = removeWords(documents,idx)
newDocuments = 2x1 tokenizedDocument: 1 tokens: love 2 tokens: love MathWorks

通过输入一个停止词列表来从单词袋模型中删除停止词removeWords.停止词是指像“a”,“the”和“in”这样的词,这些词通常在分析之前从文本中删除。

文档= tokenizedDocument([一个短句的例子“第二句短句”]);bag = bagOfWords(文档);newBag = removeWords(bag,stopWords)
newBag = bagOfWords有属性:计数:[2x4 double]词汇:["example" "short" "sentence" "second"] NumWords: 4 NumDocuments: 2

通过输入数字索引向量,从单词袋模型中删除单词removeWords

创建一个标记文档数组。

文档= tokenizedDocument([“我爱MATLAB”“我爱MathWorks”]);字(文件)
计数:[2x4 double]词汇:["I" "love" "MATLAB" "MathWorks"] NumWords: 4 NumDocuments: 2

查看词汇表

袋里。词汇表
ans =1 x4字符串“我”“爱”“MATLAB”“MathWorks”

通过指定数值索引,从单词袋模型中删除词汇表的第一个和第三个单词3 [1]

Idx = [1 3];newBag = removeWords(bag,idx)
newBag = bagOfWords属性:Counts: [2x2 double]词汇:["love" "MathWorks"] NumWords: 2 NumDocuments: 2

或者,您可以指定逻辑索引。

Idx = logical([1 0 1 0]);newBag = removeWords(bag,idx)
newBag = bagOfWords属性:Counts: [2x2 double]词汇:["love" "MathWorks"] NumWords: 2 NumDocuments: 2

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输入单词袋模型,指定为bagOfWords对象。

要删除的词,指定为字符串向量、字符向量或字符向量的单元格数组。如果你指定单词作为字符向量,则函数将其作为单个单词处理。

数据类型:字符串|字符|细胞

要删除的词的索引,指定为数值索引的向量或逻辑索引的向量。的索引idx对应单词的位置词汇表属性的输入文档或词袋模型。

例子:[1 5 10]

输出参数

全部折叠

输出文档,作为tokenizedDocument数组中。

输出字袋模型,返回为bagOfWords对象。

在R2017b中引入