主要内容

removeWords

从文档或词袋模型中删除选定的词

描述

例子

newDocuments= removeWords (文档单词从中删除指定的单词文档.缺省情况下,该函数区分大小写。

例子

纽巴格= removeWords (单词从单词包模型中删除指定的单词.缺省情况下,该函数区分大小写。

newDocuments= removeWords (___“IgnoreCase”,真的)使用任何前面的语法删除忽略大小写的单词。

例子

newDocuments= removeWords (文档idx通过指定数字或逻辑索引来删除单词idx词义文档。词汇表.这个语法与newDocuments=删除单词(文档,文档.词汇表(idx))

例子

纽巴格= removeWords (idx通过指定数字或逻辑索引来删除单词idx词义袋里。词汇表.这个语法与newBag=移除单词(bag,bag.词汇表(idx))

例子

全部崩溃

从文档数组中删除单词,方法是输入一个单词字符串数组removeWords

创建一个标记化文档数组。

文件= tokenizedDocument ([“一个短句的例子”第二个短句]);

去掉“短”和“第二”这两个词。

单词=[“短”“第二”];newDocuments = removeWords(文件,字)
newDocuments = 2x1 tokenizedDocument: 5 tokens:一个句子的例子2 tokens:一个句子

若要使用文档的语言细节删除默认的停止词列表,请使用移除单词

要删除自定义停止词列表,请使用removeWords函数。您可以使用停止语作为起点发挥作用。

加载示例数据。该文件十四行诗预处理.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从十四行诗预处理.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“十四行诗预处理.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看前几个文档。

文档(1:5)
ans=5x1标记文档:70标记:最美丽的生物欲望增加,因此美丽的玫瑰可能永远不会凋谢成熟时间逝去温柔的继承人可能会留下记忆你收缩了自己明亮的眼睛喂养了你的光明自足的燃料制造饥荒充裕的谎言你自己你的敌人你甜蜜的自我残忍你是世界新的装饰先驱g奥迪春天你自己的花蕾埋葬你的知足温柔的怒吼使荒芜吝啬的怜悯世界其他贪食者吃世界给你坟墓71代币:四十个冬天将围困你的额头挖深沟你的美丽的田野你的年轻人骄傲的制服凝视着破烂的野草价值不高问你的美丽谎言珍惜你的美好时光说你自己深沉的爱是的,自惭形秽节俭的赞美赞美值得你的美丽你能回答我的美丽的孩子我会算数,用旧借口证明美丽继承你的新借口你变老了你的血液温暖你感到寒冷65个记号:看你的镜子告诉你的脸你看时间面对另一个你重新修复的人你欺骗了世界美丽的母亲,她未出生的子宫不屑耕种你的耕作喜爱的坟墓自爱阻止后代你是你的母亲玻璃你唤回可爱的四月盛年你的窗口你的年龄尽管有皱纹你的黄金时代你还活着记得死了单身你的形象死了你71个象征:无情的可爱你为什么在你自己身上花费美丽的遗产自然的遗赠什么也不借给弗兰克放贷自由美丽的吝啬鬼你为什么滥用慷慨的施舍你给无利可图的高利贷者你为什么大笔的钱却能独自生活你的自我你的自我你的甜蜜的自我欺骗自然呼唤你离去审计你能把你未用的美丽留在床上吗ee lives th executor 61 tokens:小时温柔的工作框架可爱的凝视每一只眼睛都居住扮演暴君同样不公平公平公平的表现永远不出类拔萃时间过夏天可怕的冬天令人困惑的树液凝结的霜冻浓密的叶子完全消失的美丽被遗忘的赤裸每一个夏天蒸馏留下的液体囚徒被压抑的墙壁玻璃美失去了效果美也不是回忆,也不是冬天里蒸馏出来的花朵与酒糟相遇,表明物质依然甜蜜

创建一个停止字列表,从停止语函数。

customStopWords=[stopWords]“你的”“你”“你”“多斯特”“多斯”];

从文档中删除自定义停止词并查看前几个文档。

= removeWords文档(文档、customStopWords);文档(1:5)
ans=5x1标记文档:62个标记:最美丽的生物欲望增加美丽的玫瑰可能永远不会凋谢成熟的时间逝去温柔的继承人可能会承受记忆收缩你自己明亮的眼睛喂养最明亮的火焰自我充实的燃料制造饥荒充裕的谎言自我敌人甜蜜的自我残酷的艺术世界新鲜的装饰先驱花哨的春天你自己的花蕾最厚重的内容温柔的暴躁浪费吝啬的怜悯世界其他贪食者吃世界应有的坟墓61代币:四十个冬天将围困眉毛挖深沟美丽的田野青年骄傲的衣着凝望破烂的野草小有价值的被问到美丽的谎言宝藏旺盛的日子说你自己深陷的眼睛哀叹羞耻节俭的赞美值得赞美美丽的人不能回答美丽的孩子我要算数制造旧的借口证明美丽继承你的新制造的艺术旧的血液温暖的感觉寒冷的52个标记:镜子告诉脸看最远的时间脸来自另一个新的修复最新的欺骗世界无私的母亲公平的子宫不屑耕作畜牧业喜爱的坟墓自爱阻止后代艺术母亲的玻璃唤回可爱的四月黄金时段的窗户你的年龄将纵然皱纹黄金时代活着记住死去单身你的形象死去52个标志:不吝啬的可爱为什么花在自我美丽的遗产上自然的遗产什么都不借给弗兰克放贷自由美丽的小气鬼为什么滥用慷慨的慷慨给无利可图的高利贷者为什么大笔钱总的来说,不能活的交通自我孤独自我甜蜜自欺自然的呼唤消失了可接受的审计不能留下未使用的美丽卧床不起的生活执行者59个标记:小时温柔的工作框架可爱的凝视每一只眼睛居住玩暴君同样不公平的相当优秀从不浪费时间过夏天可怕的冬天混乱的树液检查霜坚韧的叶子完全消失了每年夏天蒸馏留下液体囚徒被压抑的墙壁玻璃美的效果失去了美丽也不记得花蒸馏虽然冬天遇到了酒显示物质仍然活得甜蜜

通过向文档中输入数字索引向量来删除文档中的单词removeWords

创建一个标记化文档数组。

文件= tokenizedDocument ([“我爱MATLAB”“我爱数学”])
documents = 2x1 tokenizedDocument: 3 token:我爱MATLAB 3 token:我爱MathWorks

查看文档

文档。词汇表
ans =1x4字符串"I" "love" "MATLAB" "MathWorks"

通过指定数字索引,从文档中删除词汇表的第一个和第三个单词3 [1]

Idx = [1 3];idx newDocuments = removeWords(文档)
newDocuments=2x1标记化文档:1标记:爱情2标记:爱情数学作品

或者,您可以指定逻辑索引。

idx=逻辑([1 0 1 0]);新文档=删除字(文档,idx)
newDocuments=2x1标记化文档:1标记:爱情2标记:爱情数学作品

通过输入停止词列表来从词袋模型中删除停止词removeWords.停止词是像“a”、“the”和“in”这样的词,这些词在分析之前通常会从文本中删除。

文件= tokenizedDocument ([“一个短句的例子”第二个短句]);袋= bagOfWords(文件);stopWords newBag = removeWords(袋)
newBag = bagOfWords with properties: Counts: [2x4 double] Vocabulary: ["example" "short" "sentence" "second"] NumWords: 4 NumDocuments: 2

通过输入一个带有数字索引的向量来从单词包模型中删除单词removeWords

创建一个标记化文档数组。

文件= tokenizedDocument ([“我爱MATLAB”“我爱数学”]);袋= bagOfWords(文档)
bag=bagOfWords和properties:Counts:[2x4 double]词汇:[“我”“爱”“MATLAB”“数学作品”]NumWords:4 NumDocuments:2

查看

袋里。词汇表
ans =1x4字符串"I" "love" "MATLAB" "MathWorks"

通过指定数字索引,从单词袋模型中删除词汇表的第一个和第三个单词3 [1]

Idx = [1 3];idx newBag = removeWords(袋)
newBag = bagOfWords with properties: Counts: [2x2 double

或者,您可以指定逻辑索引。

Idx =逻辑([1 0 1 0]);idx newBag = removeWords(袋)
newBag = bagOfWords with properties: Counts: [2x2 double

输入参数

全部崩溃

输入文档,指定为标记化文档数组中。

输入词袋模型,指定为bagOfWords对象

要删除的字,指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量,然后函数将其视为单个单词。

数据类型:字符串|烧焦|细胞

要删除的字的索引,指定为数字索引向量或逻辑索引向量。中的索引idx对应于中单词的位置词汇表输入文档或单词包模型的属性。

例子:[1 5 10]

输出参数

全部崩溃

输出文档,作为标记化文档数组中。

输出单词包模型,返回为bagOfWords对象

介绍了R2017b