主要内容

normalizeWords

茎或lemmatize单词

描述

使用normalizeWords减少单词根形式。来lemmatize英语单词(减少他们的字典形式),设置“风格”选项“引理”

函数支持英语、日语、德语,金宝app和韩国的文本。

例子

updatedDocuments= normalizeWords (文档)减少了单词文档一个根形式。英语和德语文本的函数,默认情况下,茎的单词使用波特抽梗机分别为英语和德语文本。对于日本和韩国文字,函数,默认情况下,lemmatizes使用MeCab记号赋予器的话。

例子

updatedWords= normalizeWords (单词)减少字符串数组中的每个单词单词一个根形式。

updatedWords= normalizeWords (单词“语言”,语言)减少了单词和还指定了这个词的语言。

例子

___= normalizeWords (___“风格”,风格)还指定了规范化的风格。例如,normalizeWords(文档、“风格”、“引理”)lemmatizes输入文档中的词。

例子

全部折叠

茎单词在一个文档数组中使用波特抽梗机。

文件= tokenizedDocument ([“措辞强硬的词”“另一个集合的单词”]);newDocuments = normalizeWords(文档)
newDocuments = 2 x1 tokenizedDocument: 6令牌:strongli词的收集4令牌:程序收集的词

茎的话使用波特抽梗机在一个字符串数组。字符串数组的每个元素必须是一个字。

话说= [“一个”“强烈”“措辞”“收集”“的”“单词”];newWords = normalizeWords(字)
newWords =1 x6字符串strongli“““““收集”“““单词”

Lemmatize单词在一个文档数组。

文件= tokenizedDocument ([“我是盖房子。”“建筑有两层楼。”]);newDocuments = normalizeWords(文档,“风格”,“引理”)
newDocuments = 2 x1 tokenizedDocument: 6令牌:我是盖房子。6代币:构建有两层。

提高词元化,使用第一个词性细节添加到文档addPartOfSpeechDetails函数。例如,如果文档包含词性的细节,然后normalizeWords只减少了动词“建筑”,而不是名词“建筑”。

= addPartOfSpeechDetails文件(文档);newDocuments = normalizeWords(文档,“风格”,“引理”)
newDocuments = 2 x1 tokenizedDocument: 6令牌:我是盖房子。6代币:建筑有两层。

日本标记文本使用tokenizedDocument函数。日本文本自动检测功能。

str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文件= tokenizedDocument (str);

Lemmatize令牌使用normalizeWords

文件= normalizeWords(文档)
文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7令牌:遠くの駅まで歩けるない。

德国标记文本使用tokenizedDocument函数。德国文本自动检测功能。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str);

使用令牌normalizeWords

文件= normalizeWords(文档)
文件= 2 x1 tokenizedDocument: 8令牌:肠道morg。蒙特es dir ?6代币:heut将静脉肠道标签。

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

输入文字,指定为字符串向量,特征向量,或单元阵列特征向量。如果您指定单词作为一个特征向量,那么函数将参数作为一个单独的词。

数据类型:字符串|字符|细胞

归一化风格,指定为以下之一:

  • “干细胞”——使用波特抽梗机干的话。此选项仅支持英语和德语文金宝app本。对于英语和德语文本,这是默认值。

  • “引理”——提取每个单词的字典形式。该选项支持英语、日语、和金宝app韩国的文本。如果一个词不是内部字典,然后函数输出字不变。英语文本,输出是小写的。对于日本和韩国的文本,这是默认值。

只有规范化令牌类型的函数“信”“其他”。令牌类型的更多信息,请参阅tokenDetails

提示

英语文本,提高词元化的单词在文档中,首先添加词性使用细节addPartOfSpeechDetails函数。

文字语言,指定为以下之一:

  • “en”- - - - - -英语

  • “德”——德国语言

如果你不指定语言,软件自动检测语言。lemmatize日本或韩国文字,使用tokenizedDocument输入。

数据类型:字符|字符串

输出参数

全部折叠

更新文件,作为一个返回tokenizedDocument数组中。

更新的话说,作为一个字符串数组,返回字符向量,或单元阵列的特征向量。单词updatedWords有相同的数据类型。

算法

全部折叠

语言细节

tokenizedDocument对象包含令牌的详细信息包括语言细节。语言输入文档的细节决定的行为normalizeWords。的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,使用语言选择tokenizedDocument。查看标记的细节,使用tokenDetails函数。

版本历史

介绍了R2017b

全部展开