主要内容

删除词

从文档中删除停止单词

描述

Words like "a", "and", "to", and "the" (known as stop words) can add noise to data. Use this function to remove stop words before analysis.

该功能支持英语,日语,德语金宝app和韩语文本。学习如何使用删除词有关其他语言,请参阅语言注意事项

例子

新DOCUMENTS= removeStopWords(文件tokenizedDocumentarray文件。默认情况下,该函数使用的停止字列表停止字根据语言细节的功能文件and is case insensitive.

To remove a custom list of words, use the删除字功能。

新DOCUMENTS= removeStopWords(文件,“ ignorecase',false)删除与案例匹配的停止单词与停止单词列表相匹配停止字功能。

小费

利用删除词使用之前归一化词功能为删除词使用此功能删除的信息。

例子

全部收缩

使用使用删除词。这tokenizedDocument功能检测到the documents are in English, so删除词删除英语停止单词。

documents = tokenizedDocument([“简短句子的例子”“第二句话”);newDocuments = removestopwords(文档)
newDocuments = 2x1 tokenizedDocument:3令牌:示例简短句子3令牌:第二个短句子

使用的日语文字使用tokenizedDocument。该功能自动检测日语文本。

str = ["ここは静かなので、とても穏やかです"“”企业顾客をし,今年売り上げをことが出来。。。“私は。私英语を教えい。。”];文档= tokenizedDocument(str);

使用停止单词使用删除词。该功能使用语言详细信息文件确定哪种语言停止单词要删除。

文件= removeStopWords(documents)
文档= 3x1 tokenizeddocument:4代币:静静とても10令牌:企业企业データ利用今年売り上げ调べる出来出来。。。。。。。。。。。。。。。。。。。。。。。。。。

使用德语文字tokenizedDocument。该功能自动检测德语文本。

str = ["Guten Morgen. Wie geht es dir?"“ heute wird ein guter标签。”];文档= tokenizedDocument(str)
文档= 2x1 tokenizedDocument:8代币:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。

使用删除停止单词删除词功能。该功能使用文档中的语言详细信息来确定要删除的语言停止单词。

文件= removeStopWords(documents)
文件= 2x1 tokenizedDocument: 5 tokens: Guten Morgen . geht ? 5 tokens: Heute wird guter Tag .

输入参数

全部收缩

输入文档,指定为tokenizedDocument大批。

输出参数

全部收缩

输出文档,返回tokenizedDocument大批。

更多关于

全部收缩

语言注意事项

停止字and删除词functions support English, Japanese, German, and Korean stop words only.

要删除其他语言中的停止单词,请使用删除字并指定自己的停止单词以删除。

算法

全部收缩

语言细节

tokenizedDocument对象包含有关令牌的详细信息,包括语言详细信息。输入文档的语言详细信息确定删除词。这tokenizedDocumentfunction, by default, automatically detects the language of the input text. To specify the language details manually, use the'语'名称-值对的观点tokenizedDocument。要查看令牌详细信息,请使用tokendetails功能。

在R2018B中引入