主要内容

removeWords

从文档或单词袋模型中删除所选单词

描述

例子

newDocuments= removeWords (文档单词中删除指定的单词文档.缺省情况下,该函数区分大小写。

例子

newBag= removeWords (单词从单词袋模型中删除指定的单词.缺省情况下,该函数区分大小写。

newDocuments= removeWords (___“IgnoreCase”,真的)删除使用任何先前语法忽略大小写的单词。

例子

newDocuments= removeWords (文档idx通过指定数字或逻辑索引删除单词idx里面的词文档。词汇表.此语法与newDocuments = removeWords(documents,documents. vocabulary (idx))

例子

newBag= removeWords (idx通过指定数字或逻辑索引删除单词idx里面的词袋里。词汇表.此语法与newBag = removeWords(bag,bag. vocabulary (idx))

例子

全部折叠

的字符串数组中删除文档数组中的单词removeWords

创建一个标记化文档数组。

documents = tokenizedDocument([一个短句的例子。“第二个短句”]);

去掉“短”和“秒”。

单词= [“短”“第二”];newDocuments = removeWords(文档,单词)
newDocuments = 2x1 tokenizedDocument: 5个标记:一个句子的例子2个标记:一个句子

若要使用文档的语言详细信息删除默认停止词列表,请使用removeStopWords

要删除自定义停止词列表,请使用removeWords函数。方法返回的停止词列表stopWords函数作为起点。

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt,以换行符将文本分割为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);

查看前几个文档。

文档(1:5)
ans = 5 x1 tokenizedDocument: 70令牌:美丽的生物欲望增加从而美丽玫瑰可能永远不会死成熟时间流逝的记忆交给娇嫩的后嗣收缩你的明亮的眼睛feedst你灯火焰selfsubstantial燃料使饥荒丰富是你的自我你的敌人你甜蜜的自我残忍你艺术世界新鲜点缀春天华丽使者你自己的花蕾埋葬你的内容投标乡下人makst浪费吝啬鬼遗憾世界其他贪吃的人吃世界由于严重你71令牌:四十个冬天会包围你的额头挖深壕你的美丽的田野你的青春骄傲的制服凝视着破烂的杂草不值得拥有问你的美丽存在珍惜你的青春说你自己深陷的眼睛表示耻辱挥霍的赞美赞美配得上你的美丽你可以回答漂亮的孩子我的将被计数用旧的借口证明美丽继承你的新使你老了你的血液温暖你感到寒冷65个标志:看你的镜子告诉你的脸你看的是时间的脸从另一个人的脸上你更新了它的新鲜的修复你欺骗了世界不祝福的母亲美丽的母亲不听的子宫蔑视耕作你的耕作可爱的坟墓自爱停止后代你是你母亲的镜子你唤回可爱的四月春光你的窗户你的年龄将不顾皱纹你的黄金年华你活着记住孤独你的形象死去你71个标志:挥霍无度的美人,你为什么要把你美丽的遗产,大自然的遗赠,什么也不给,不借给,坦率地,免费地,美丽的吝啬鬼,你为什么要滥用慷慨的慷慨,你要给无息的高利贷者,你为什么要大把大把大把大把的钱,还能活下去,只有你自己,你自己,你可爱的自己,你欺骗大自然,叫你走了,可以接受的审计,你能把你没用过的美丽埋葬吗,你活着,遗嘱者61个记号:时间温柔的工作框架可爱的凝视每只眼睛都住在玩耍暴君同样的不公平公平地超越永不停息的时间导致夏天可怕的冬天困惑汁液被检查的霜冻强壮的叶子完全消失了美丽被白雪覆盖,每年夏天蒸馏留下液体囚犯被囚禁的墙壁玻璃美丽的效果美丽失去了也没有记忆花蒸馏尽管冬天遇到了leese显示物质仍然生活甜蜜

类的输出开始,创建一个停止词列表stopWords函数。

customStopWords = [stopWords .“你”“你”“你”“难道”“难道”];

从文档中删除自定义停止词并查看前几个文档。

documents = removeWords(documents,customStopWords);文档(1:5)
象征:最美丽的生物渴望增长因此美丽的玫瑰可能永不凋零成熟的时间死亡温柔的它们可能承载记忆萎缩你自己明亮的眼睛喂食灯光火焰自我充实的燃料制造饥荒丰盛的谎言自我敌人甜蜜的自我残酷的艺术世界新鲜的装饰预示着华丽的春天你自己的花蕾最深沉的满足温柔的粗鲁使浪费吝啬的怜悯世界其他贪吃世界应有的坟墓61象征:四十个冬天将围拢眉头深挖战壕美丽的田野青年骄傲的衣裳凝视破烂的杂草小值得拥有问美丽的谎言宝藏蓬勃的日子说你自己深陷的眼睛声称羞耻节约的赞美赞美值得美丽的能回答漂亮的孩子我的将计算使老借口证明美丽继承你的新创造的艺术老血液温暖的感觉冷52个标志:镜子告诉脸观看时间脸形成另一个谁的新鲜修复更新的欺骗世界不祝福的母亲美丽的她的未听过的子宫蔑视耕作耕作喜爱的坟墓自爱停止子孙后代艺术母亲玻璃唤回可爱的四月黄金窗你的年龄将尽管皱纹黄金时间活着记住单身你的形象死去52个象征:挥霍的可爱为什么把钱花在自我美丽的遗产上大自然的遗产不给任何东西借给坦率的借给免费的美丽的吝啬鬼为什么滥用慷慨的慷慨给予无利的高利贷者为什么巨额的款项却能生活交通自我孤独自我甜蜜自我欺骗自然的唤去可接受的审计可以把未使用的美丽埋葬生命执行者59个记号:时间温柔的工作框架可爱的凝视每只眼睛居住玩暴君同样不公平相当优秀永不休息的时间导致夏天可怕的冬天困惑汁液检查霜强壮的叶子完全消失了美丽过度的雪裸露每年夏天蒸馏留下液体囚犯被囚禁的墙壁玻璃美丽的效果美丽失去也不记得花蒸馏尽管冬天遇到leese显示物质仍然生活甜蜜

通过输入数值索引的向量从文档中删除单词removeWords

创建一个标记化文档数组。

documents = tokenizedDocument([“我爱MATLAB”“我爱MathWorks”])
文档= 2x1 tokenizedDocument: 3个token:我爱MATLAB 3个token:我爱MathWorks

查看词汇文档

文档。词汇表
ans =1 x4字符串"我" "爱" "MATLAB" "MathWorks"

通过指定数值索引,从文档中删除词汇表的第一个和第三个单词3 [1]

Idx = [1 3];newDocuments = removeWords(文档,idx)
newDocuments = 2x1 tokenizedDocument: 1个token:爱2个token:爱

或者,您可以指定逻辑索引。

Idx = logical([1 0 1 0]);newDocuments = removeWords(文档,idx)
newDocuments = 2x1 tokenizedDocument: 1个token:爱2个token:爱

通过输入一个停止词列表来从单词袋模型中删除停止词removeWords.停止词是像“a”,“the”和“in”这样的词,它们通常在分析之前从文本中删除。

documents = tokenizedDocument([一个短句的例子。“第二个短句”]);bag = bagOfWords(文档);newBag = removeWords(包,stopWords)
newBag = bagOfWords with properties:计数:[2x4 double]词汇:["example" "short" "sentence" "second"] NumWords: 4 NumDocuments: 2

通过输入数值索引的向量来从词袋模型中删除词removeWords

创建一个标记化文档数组。

documents = tokenizedDocument([“我爱MATLAB”“我爱MathWorks”]);bag = bagOfWords(文档)
bag = bagOfWords with properties:计数:[2x4 double]词汇:["I" "love" "MATLAB" "MathWorks"] NumWords: 4 NumDocuments: 2

查看词汇

袋里。词汇表
ans =1 x4字符串"我" "爱" "MATLAB" "MathWorks"

通过指定数值索引,从词袋模型中删除词汇表的第一个和第三个单词3 [1]

Idx = [1 3];newBag = removeWords(包,idx)
newBag = bagOfWords with properties:计数:[2x2 double]词汇:["love" "MathWorks"] NumWords: 2 NumDocuments: 2

或者,您可以指定逻辑索引。

Idx = logical([1 0 1 0]);newBag = removeWords(包,idx)
newBag = bagOfWords with properties:计数:[2x2 double]词汇:["love" "MathWorks"] NumWords: 2 NumDocuments: 2

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输入单词袋模型,指定为bagOfWords对象。

要删除的单词,指定为字符串向量、字符向量或字符向量的单元格数组。如果你指定单词作为字符向量,函数将其视为单个单词。

数据类型:字符串|字符|细胞

要删除的词的索引,指定为数值索引的向量或逻辑索引的向量。的指数idx的单词对应的位置词汇表属性的输入文档或单词袋模型。

例子:[1 5 10]

输出参数

全部折叠

输出文档,返回为tokenizedDocument数组中。

输出单词袋模型,返回为bagOfWords对象。

版本历史

在R2017b中引入