主要内容

Removestopwords.

从文档中删除停止单词

描述

像“a”、“and”、“to”和“the”这样的词(被称为停止词)会给数据增加噪音。使用此函数在分析前删除停止词。

该功能支持英语,日语,德语金宝app和韩文文本。学习如何使用Removestopwords.对于其他语言,请参阅语言考虑因素

例子

新的模特= removeStopWords (文件从中删除停止单词tokenizedDocument数组文件.默认情况下,函数使用所提供的停止字列表秒表根据语言细节的功能文件并且不区分大小写。

若要删除自定义单词列表,请使用删除功能。

新的模特= removeStopWords (文件,'Ignorecase',false)删除停止单词与匹配由此给出的停止字列表匹配秒表功能。

小费

Removestopwords.在使用之前正常化字功能Removestopwords.使用此功能删除的信息。

例子

全部收缩

从一系列文件中删除停止单词Removestopwords..这tokenizedDocument函数检测文档是英文的,所以Removestopwords.删除英语停止单词。

文档= tokenizeddocument([“一句话的一个例子”“第二句话”]);newdocuments = removestopwords(文件)
newdocuments = 2x1 tokenizeddocument:3令牌:示例简短句子3代币:第二句话

用来象征日语文本tokenizedDocument.该功能会自动检测日文文本。

str = [“ここは静かなので,とても穏やかです”“企业内の顾客データデータ利用し,长年の売り上げ调べる渊来た。”“私は先生です。私は英语を教えてますます。”];文档=令授权鳕(str);

使用删除停止单词Removestopwords..该函数使用语言详细信息文件确定哪些语言停止删除。

文件= removeStopWords(文档)
文档= 3x1令牌Document:4令牌:静か,とても穏やか10代币:企业顾客顾客利用,今年売り上げ出源。5令牌:先生。英文教え。

使用授权德语文本tokenizedDocument.该功能会自动检测德语文本。

str = [“早安。你是怎么当导演的?”“Heute Wird Ein Guter标签。”];文档= tokenizeddocument(str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。

使用删除停止单词Removestopwords.功能。该函数使用文档中的语言详细信息来确定要删除的语言可停止单词。

文件= removeStopWords(文档)
documents = 2x1 tokenizedDocument: 5 token: Guten Morgen。可以吗?5令牌:Heute wird guter Tag。

输入参数

全部收缩

输入文档,指定为atokenizedDocument大批。

输出参数

全部收缩

输出文件,作为a返回tokenizedDocument大批。

更多关于

全部收缩

语言考虑因素

秒表Removestopwords.功能支持英语,日语,金宝app德语,和韩语停止词仅。

从其他语言中删除停止单词,使用删除并指定您自己的停止单词以删除。

算法

全部收缩

语言细节

tokenizedDocument对象包含有关令牌的详细信息,包括语言详细信息。输入文档的语言细节确定了行为Removestopwords..这tokenizedDocument函数默认情况下自动检测输入文本的语言。若要手动指定语言细节,请使用'语'名称 - 值对参数tokenizedDocument.要查看令牌详细信息,请使用令敬当功能。

在R2018B中介绍