主要内容

normalizeWords

词干或词根化单词

描述

使用normalizeWords词根化词根化词根来lemmatize英语单词(将它们还原为字典形式),设置“风格”选项“引理”

支持英文、日文、德文、韩文金宝app。

例子

updatedDocuments= normalizeWords (文档缩略语文档变成根形式。对于英语和德语文本,默认情况下,该函数分别使用Porter词干分析器对英语和德语文本的单词进行词干。对于日语和韩语文本,默认情况下,该函数使用MeCab标记器对单词进行词源化。

例子

updatedWords= normalizeWords (单词缩减字符串数组中的每个单词单词变成根形式。

updatedWords= normalizeWords (单词“语言”,语言减少单词并指定单词language。

例子

___= normalizeWords (___“风格”,风格还指定规范化样式。例如,normalizeWords(文档、“风格”、“引理”)对输入文档中的单词进行检索。

例子

全部折叠

使用波特词干分析器对文档数组中的单词进行词干。

documents = tokenizedDocument([“措辞强烈的词汇集”“另一组词”]);newDocuments = normalizeWords(文档)
newDocuments = 2x1 tokenizedDocument: 6个token:一个强有力的word集合。4个token:另一个word集合

使用波特词干分析器在字符串数组中词干。字符串数组的每个元素必须是单个单词。

单词= [“一个”“强烈”“措辞”“收集”“的”“单词”];newWords = normalizeWords(单词)
newWords =1 x6字符串"a" "strongli" "word" "collect" "of" word"

对文档数组中的单词进行lemm化。

documents = tokenizedDocument([“我在盖房子。”“这栋楼有两层。”]);newDocuments = normalizeWords(文档,“风格”“引理”
newDocuments = 2x1 tokenizedDocument: 6个token:我将建造一个房子。6令牌:建筑有两层。

方法在文档中添加词性细节,以改进词性化addPartOfSpeechDetails函数。例如,如果文档包含词性细节,那么normalizeWords略读唯一的动词“building”而不重读名词“building”。

文档= addPartOfSpeechDetails(文档);newDocuments = normalizeWords(文档,“风格”“引理”
newDocuments = 2x1 tokenizedDocument: 6个token:我将建造一个房子。6 .令牌:该建筑有两层。

符号化日语文本tokenizedDocument函数。该功能自动检测日语文本。

STR = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];documents = tokenizedDocument(str);

lemalize使用的令牌normalizeWords

文档= normalizeWords(文档)
documents = 4x1 tokenizedDocument: 10个token:空に星が輝く,瞬くている。10个代币:空の星が輝きを増すている。9个代币:駅までは遠いて,歩けるない。7个代币:遠くの駅まで歩けるない。

标记德语文本tokenizedDocument函数。该功能自动检测德语文本。

STR = [“早安。是谁干的?”“Heute wird ein guter Tag。”];documents = tokenizedDocument(str);

阻止使用令牌normalizeWords

文档= normalizeWords(文档)
documents = 2x1 tokenizedDocument: 8 token: gut morg。是谁的?6令牌:heut wild ein gut标签。

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输入单词,指定为字符串向量、字符向量或字符向量的单元格数组。如果你指定单词作为字符向量,函数将参数视为单个单词。

数据类型:字符串|字符|细胞

规范化样式,指定为以下之一:

  • “干细胞”-使用波特词干分析器词干单词。此选项仅支持英语和德语文金宝app本。对于英语和德语文本,此值是默认值。

  • “引理”-提取每个单词的字典形式。此选项仅支持英语、日语和金宝app韩语文本。如果一个单词不在内部字典中,则该函数输出单词不变。对于英文文本,输出是小写的。对于日语和韩语文本,这个值是默认值。

该函数只规范化带有类型的标记“信”而且“其他”.有关令牌类型的详细信息,请参见tokenDetails

提示

对于英语文本,为了改善文档中单词的词性化,首先使用addPartOfSpeechDetails函数。

Word语言,指定为下列之一:

  • “en”-英语

  • “德”-德语

如果您没有指定语言,那么软件将自动检测语言。要将日文或韩文词化,请使用tokenizedDocument输入。

数据类型:字符|字符串

输出参数

全部折叠

更新后的文档,返回为tokenizedDocument数组中。

更新后的单词,作为字符串数组、字符向量或字符向量的单元格数组返回。单词而且updatedWords具有相同的数据类型。

算法

全部折叠

语言细节

tokenizedDocument对象包含关于令牌的详细信息,包括语言详细信息。的行为由输入文档的语言细节决定normalizeWords.的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。若要手动指定语言详细信息,请使用语言选择tokenizedDocument.要查看令牌详细信息,请使用tokenDetails函数。

版本历史

在R2017b中引入

全部展开