删除词

从文档中删除停止单词

在页面中崩溃

句法

newDocuments = removestopwords（文档）

newDocuments = removestopwords（文档，'ignorecase'，false）

描述

Words like "a", "and", "to", and "the" (known as stop words) can add noise to data. Use this function to remove stop words before analysis.

该功能支持英语，日语，德语金宝app和韩语文本。学习如何使用删除词有关其他语言，请参阅语言注意事项。

例子

新DOCUMENTS= removeStopWords(文件）从tokenizedDocumentarray文件。默认情况下，该函数使用的停止字列表停止字根据语言细节的功能文件and is case insensitive.

To remove a custom list of words, use the删除字功能。

新DOCUMENTS= removeStopWords(文件，“ ignorecase'，false）删除与案例匹配的停止单词与停止单词列表相匹配停止字功能。

小费

利用删除词使用之前归一化词功能为删除词使用此功能删除的信息。

例子

全部收缩

从文档中删除停止单词

Open Live Script

使用使用删除词。这tokenizedDocument功能检测到the documents are in English, so删除词删除英语停止单词。

documents = tokenizedDocument（[“简短句子的例子”“第二句话”）;newDocuments = removestopwords（文档）

newDocuments = 2x1 tokenizedDocument：3令牌：示例简短句子3令牌：第二个短句子

删除日本停止单词

Open Live Script

使用的日语文字使用tokenizedDocument。该功能自动检测日语文本。

str = ["ここは静かなので、とても穏やかです"“”企业顾客をし，今年売り上げをことが出来。。。“私は。私英语を教えい。。”];文档= tokenizedDocument（str）;

使用停止单词使用删除词。该功能使用语言详细信息文件确定哪种语言停止单词要删除。

文件= removeStopWords(documents)

文档= 3x1 tokenizeddocument：4代币：静静とても10令牌：企业企业データ利用今年売り上げ调べる出来出来。。。。。。。。。。。。。。。。。。。。。。。。。。

从文件中删除德国停止单词

Open Live Script

使用德语文字tokenizedDocument。该功能自动检测德语文本。

str = ["Guten Morgen. Wie geht es dir?"“ heute wird ein guter标签。”];文档= tokenizedDocument（str）

文档= 2x1 tokenizedDocument：8代币：Guten Morgen。魏某geht ES目录 ？6个令牌：Heute Wird Ein Guter标签。

使用删除停止单词删除词功能。该功能使用文档中的语言详细信息来确定要删除的语言停止单词。

文件= removeStopWords(documents)

文件= 2x1 tokenizedDocument: 5 tokens: Guten Morgen . geht ? 5 tokens: Heute wird guter Tag .

输入参数

全部收缩

`文件`-输入文档
`tokenizedDocument`array

输入文档，指定为tokenizedDocument大批。

输出参数

全部收缩

`新DOCUMENTS`- 输出文件
`tokenizedDocument`array

输出文档，返回tokenizedDocument大批。

算法

全部收缩

语言细节

tokenizedDocument对象包含有关令牌的详细信息，包括语言详细信息。输入文档的语言详细信息确定删除词。这tokenizedDocumentfunction, by default, automatically detects the language of the input text. To specify the language details manually, use the'语'名称-值对的观点tokenizedDocument。要查看令牌详细信息，请使用tokendetails功能。

也可以看看

tokenizedDocument|removeShortWords|removelongwords|删除字|归一化词|停止字|小词

话题

在R2018B中引入

删除词

句法

描述

例子

从文档中删除停止单词

删除日本停止单词

从文件中删除德国停止单词

输入参数

`文件`-输入文档
`tokenizedDocument`array

输出参数

`新DOCUMENTS`- 输出文件
`tokenizedDocument`array

更多关于

语言注意事项

算法

语言细节

也可以看看

话题

文本分析工具箱文档

金宝app

开始使用MATLAB中的文本分析

删除词

句法

描述

例子

从文档中删除停止单词

删除日本停止单词

从文件中删除德国停止单词

输入参数

文件-输入文档tokenizedDocumentarray

输出参数

新DOCUMENTS- 输出文件tokenizedDocumentarray

更多关于

语言注意事项

算法

语言细节

也可以看看

话题

文本分析工具箱文档

金宝app

开始使用MATLAB中的文本分析

`文件`-输入文档
`tokenizedDocument`array

`新DOCUMENTS`- 输出文件
`tokenizedDocument`array