主要内容

removeStopWords

从文档删除停用词

自从R2018b

描述

“一个”这样的词,“和”,“”,“”(即停止词)可以添加噪声数据。使用这个函数删除前停止词分析。

函数支持英语、日语、德语,金宝app和韩国的文本。学习如何使用removeStopWords为其他语言,明白了语言的注意事项

例子

newDocuments= removeStopWords (文档)从删除停用词tokenizedDocument数组文档。这个函数,默认情况下,使用的停止单词列表stopWords函数根据语言的细节文档不分大小写。

删除自定义单词列表,使用removeWords函数。

newDocuments= removeStopWords (文档、“IgnoreCase”错误)删除停用词与案例匹配的停止单词列表stopWords函数。

提示

使用removeStopWords在使用之前normalizeWords函数作为removeStopWords这个函数使用的信息删除。

例子

全部折叠

移除阻止单词的文档使用数组removeStopWords。的tokenizedDocument功能检测到文档都是英文的,所以removeStopWords删除英语停止的话。

文件= tokenizedDocument ([“一个短句”“第二个短句”]);newDocuments = removeStopWords(文档)
newDocuments = 2 x1 tokenizedDocument: 3令牌:例子短句3令牌:第二个短句

日本标记文本使用tokenizedDocument。日本文本自动检测功能。

str = [“ここは静かなので,とても穏やかです”“企業内の顧客データを利用し,今年の売り上げを調べることが出来た。”“私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);

使用删除停用词removeStopWords。函数使用语言的细节文档确定哪些语言停止词删除。

文件= removeStopWords(文档)
文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5令牌:先生。英語教え。

德国标记文本使用tokenizedDocument。德国文本自动检测功能。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。

使用删除停用词removeStopWords函数。函数使用语言细节的文档,以确定哪些语言停止词删除。

文件= removeStopWords(文档)
文件= 2 x1 tokenizedDocument: 5令牌:早安。可以吗?5令牌:Heute将肠道标签。

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

输出参数

全部折叠

输出文件,作为一个返回tokenizedDocument数组中。

更多关于

全部折叠

语言的注意事项

stopWordsremoveStopWords函数支持英语、日语、金宝app德语,和韩国停止的话。

删除其他语言阻止的话,使用removeWords并指定自己的停止词删除。

算法

全部折叠

语言细节

tokenizedDocument对象包含令牌的详细信息包括语言细节。语言输入文档的细节决定的行为removeStopWords。的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,使用语言选择tokenizedDocument。查看标记的细节,使用tokenDetails函数。

版本历史

介绍了R2018b