removeStopWords

从文档中删除停止词

折叠所有页面

语法

newDocuments = removeStopWords(文档)

newDocuments = removeStopWords(文档、“IgnoreCase”假)

描述

像“a”、“and”、“to”和“the”这样的词(也就是停止词)会给数据增加干扰。使用此函数删除分析前的停止词。

该函数支持英语、日语、德语金宝app和韩语文本。学会如何使用removeStopWords对于其他语言，请参阅语言的注意事项．

例子

newDocuments= removeStopWords (文档）将停止的单词从tokenizedDocument数组文档．函数在默认情况下使用stopWords功能根据语言细节文档并且不区分大小写。

要删除自定义单词列表，请使用removeWords函数。

newDocuments= removeStopWords (文档、“IgnoreCase”错误)属性指定的停止字列表中以大小写匹配的停止字stopWords函数。

提示

使用removeStopWords在使用之前normalizeWords函数作为removeStopWords使用被此函数删除的信息。

例子

全部折叠

从文档中删除停止文字

打开生活的脚本

从使用的文档数组中删除停止词removeStopWords．的tokenizedDocument函数检测文档是英文的，因此removeStopWords删除英语停顿词。

文件= tokenizedDocument ([一个短句的例子第二个短句]);newDocuments = removeStopWords(文档)

newDocuments = 2x1 tokenizedDocument: 3 tokens:示例短句3 tokens:第二个短句

删除日语停止词

打开生活的脚本

标记日语文本使用tokenizedDocument．该功能自动检测日语文本。

str = [“ここは静かなので,とても穏やかです”“企業内の顧客データを利用し,今年の売り上げを調べることが出来た。”“私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);

删除使用removeStopWords．函数使用的语言细节文档以确定哪一种语言停止了要删除的单词。

文件= removeStopWords(文档)

文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5令牌:先生。英語教え。

从文档中删除德语停止词

打开生活的脚本

使用标记德语文本tokenizedDocument．该功能自动检测德语文本。

str = [“早安。你的名字叫什么?”“这是我的线。”];文件= tokenizedDocument (str)

documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。你的名字叫什么?6代币:Heute wire ein guter Tag。

删除使用the的停止词removeStopWords函数。该函数使用文档中的语言细节来确定要删除的语言停止词。

文件= removeStopWords(文档)

documents = 2x1 tokenizedDocument: 5 token: Guten Morgen。可以吗?5代币:Heute wid guter Tag。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

输出参数

全部折叠

`newDocuments`——输出文档
`tokenizedDocument`数组

输出文档，作为tokenizedDocument数组中。

算法

全部折叠

语言细节

tokenizedDocument对象包含有关标记的详细信息，包括语言细节。输入文档的语言细节决定了removeStopWords．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。要手动指定语言细节，请使用“语言”的名称-值对参数tokenizedDocument．要查看令牌详细信息，请使用tokenDetails函数。

另请参阅

主题

介绍了R2018b

removeStopWords

语法

描述

例子

从文档中删除停止文字

删除日语停止词

从文档中删除德语停止词

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输出参数

`newDocuments`——输出文档
`tokenizedDocument`数组

更多关于

语言的注意事项

算法

语言细节

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

removeStopWords

语法

描述

例子

从文档中删除停止文字

删除日语停止词

从文档中删除德语停止词

输入参数

文档- - - - - -输入文档tokenizedDocument数组

输出参数

newDocuments——输出文档tokenizedDocument数组

更多关于

语言的注意事项

算法

语言细节

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`newDocuments`——输出文档
`tokenizedDocument`数组