主要内容

正常化字

茎或鼠里言语

描述

采用正常化字将单词减少到根形式。到lemmatize.英语单词(将它们减少到他们的字典表单),设置'风格'选择'引理'

该功能支持英语,日语,德语金宝app和韩文文本。

例子

更新= rangerizewords(文件减少单词文件到根形式。对于英语和德语文本,默认情况下,函数默默地窃听使用Porter Sewer的单词分别用于英语和德语文本。对于日语和韩文文本,默认情况下,函数默默地释放使用MECAB牌授权程序的单词。

例子

更新字= rangerizewords(在字符串数组中减少每个单词到根形式。

更新字= rangerizewords(,'语',减少单词并指定单词语言。

例子

___= rangerizewords(___,'风格',风格还指定了归一化样式。例如,正常化字(文档,'风格','lemma')在输入文档中释放单词。

例子

全部收缩

使用porter stemmer栓文档阵列中的单词。

文档= tokenizeddocument([“一个强烈措辞的单词集合”“另一个单词集合”]);newdocuments = normalizewords(文档)
newdocuments = 2x1 tokenizeddocument:6个令牌:一个strongli字收集字4令牌:Anoth收集单词

使用Porter Seftmer源字符串数组中的单词。字符串数组的每个元素必须是单个单词。

单词= [“一个”“强烈”“措辞”“收藏”“的”“字”];新字= rangerizewords(单词)
新字=1x6字符串“”strongli“”字“”收集“”词“

在文档阵列中释放单词。

文档= tokenizeddocument([“我正在建房子。”“建筑有两层。”]);newdocuments = normalizewords(文档,'风格''引理'
newdocuments = 2x1 tokenizeddocument:6个令牌:我是一个房子。6令牌:建造有两层。

为了提高lemmatization,首先使用言语部分添加到文件中的言语细节addpartofspeechdetails.功能。例如,如果文档包含言语部分的细节,那么正常化字减少唯一的动词“建筑”而不是名词“建筑”。

文档= addpartofspeechdetails(文件);newdocuments = normalizewords(文档,'风格''引理'
newdocuments = 2x1 tokenizeddocument:6个令牌:我是一个房子。6令牌:该建筑有两层楼。

使用授权日本文本令人畏缩的鳕文功能。该功能会自动检测日文文本。

str = [“空に星が辉き,瞬いている。”“空の星が辉きを増している。”“駅駅までは远く,歩け歩け。”“远くの駅まで歩けない。”];文档=令授权鳕(str);

使用令牌释放令牌正常化字

文档= rangerizewords(文档)
文档= 4x1令牌Document:10令牌:空空星が辉く,瞬くている。10令牌:空の星が辉きをている。9令牌:駅までは远いて,歩けるない。7令牌:远く远く駅まで歩けるない。

使用授权德国文本令人畏缩的鳕文功能。该功能会自动检测德语文本。

str = [“Guten Morgen。Wie Geht es dir?”“Heute Wird Ein Guter标签。”];文档=令授权鳕(str);

用来茎干正常化字

文档= rangerizewords(文档)
文档= 2x1令牌Document:8令牌:肠摩尔。魏某geht ES目录 ?6令牌:Heut Wird Ein Gut标签。

输入参数

全部收缩

输入文档,指定为a令人畏缩的鳕文大批。

输入单词,指定为字符串向量,字符向量或字符向量的单元数组。如果您指定作为字符向量,那么该函数将参数视为单个单词。

数据类型:细绳|char|细胞

标准化样式,指定为以下之一:

  • '干'- 使用Porter Sewermer的词干词。此选项仅支持英语和德语文金宝app本。对于英语和德语文本,此值是默认值。

  • '引理'- 提取每个单词的字典形式。此选项仅支持英语,日语和金宝app韩语文本。如果单词不在内部字典中,则该函数输出不变的单词。对于英文文本,输出为小写。对于日语和韩文文本,此值是默认值。

该函数仅用类型标准化令牌'字母''其他'。有关令牌类型的更多信息,请参阅令敬当

提示

对于英语文本,为了提高文档中的单词的lemmatization,首先使用言语的部分使用addpartofspeechdetails.功能。

单词语言指定为以下内容之一:

  • 'en'- 英语

  • 'de'- 德国的语言

如果未指定语言,则软件会自动检测语言。释放日语或韩语文本,使用令人畏缩的鳕文输入。

数据类型:char|细绳

输出参数

全部收缩

更新的文件,返回A.令人畏缩的鳕文大批。

更新的单词,作为字符串阵列,字符向量或字符向量阵列返回。更新字具有相同的数据类型。

算法

全部收缩

语言细节

令人畏缩的鳕文对象包含有关令牌的详细信息,包括语言详细信息。输入文档的语言细节确定了行为正常化字。这令人畏缩的鳕文默认情况下,函数会自动检测输入文本的语言。要手动指定语言详细信息,请使用'语'名称 - 值对参数令人畏缩的鳕文。要查看令牌详细信息,请使用令敬当功能。

兼容性考虑因素

展开全部

R2018B的行为更改

在R2017B中介绍