normalizeWords

茎或lemmatize单词

所有的页面崩溃

语法

updatedDocuments = normalizeWords(文档)

updatedWords = normalizeWords(字)

updatedWords = normalizeWords(话说,“语言”,语言)

___= normalizeWords (___“风格”,风格)

描述

使用normalizeWords减少单词根形式。来lemmatize英语单词(减少他们的字典形式),设置“风格”选项“引理”。

函数支持英语、日语、德语,金宝app和韩国的文本。

例子

updatedDocuments= normalizeWords (文档)减少了单词文档一个根形式。英语和德语文本的函数,默认情况下,茎的单词使用波特抽梗机分别为英语和德语文本。对于日本和韩国文字,函数,默认情况下,lemmatizes使用MeCab记号赋予器的话。

例子

updatedWords= normalizeWords (单词)减少字符串数组中的每个单词单词一个根形式。

updatedWords= normalizeWords (单词“语言”,语言)减少了单词和还指定了这个词的语言。

例子

___= normalizeWords (___“风格”,风格)还指定了规范化的风格。例如,normalizeWords(文档、“风格”、“引理”)lemmatizes输入文档中的词。

例子

全部折叠

干细胞在文档

打开生活的脚本

茎单词在一个文档数组中使用波特抽梗机。

文件= tokenizedDocument ([“措辞强硬的词”“另一个集合的单词”]);newDocuments = normalizeWords(文档)

newDocuments = 2 x1 tokenizedDocument: 6令牌:strongli词的收集4令牌:程序收集的词

阀杆在字符串数组

打开生活的脚本

茎的话使用波特抽梗机在一个字符串数组。字符串数组的每个元素必须是一个字。

话说= [“一个”“强烈”“措辞”“收集”“的”“单词”];newWords = normalizeWords(字)

newWords =1 x6字符串strongli“““““收集”“““单词”

Lemmatize单词在文档中

打开生活的脚本

Lemmatize单词在一个文档数组。

文件= tokenizedDocument ([“我是盖房子。”“建筑有两层楼。”]);newDocuments = normalizeWords(文档,“风格”,“引理”)

newDocuments = 2 x1 tokenizedDocument: 6令牌:我是盖房子。6代币:构建有两层。

提高词元化,使用第一个词性细节添加到文档addPartOfSpeechDetails函数。例如,如果文档包含词性的细节,然后normalizeWords只减少了动词“建筑”,而不是名词“建筑”。

= addPartOfSpeechDetails文件(文档);newDocuments = normalizeWords(文档,“风格”,“引理”)

newDocuments = 2 x1 tokenizedDocument: 6令牌:我是盖房子。6代币:建筑有两层。

Lemmatize日本文字

打开生活的脚本

日本标记文本使用tokenizedDocument函数。日本文本自动检测功能。

str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文件= tokenizedDocument (str);

Lemmatize令牌使用normalizeWords。

文件= normalizeWords(文档)

文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7令牌:遠くの駅まで歩けるない。

遏制德国的文本

打开生活的脚本

德国标记文本使用tokenizedDocument函数。德国文本自动检测功能。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str);

使用令牌normalizeWords。

文件= normalizeWords(文档)

文件= 2 x1 tokenizedDocument: 8令牌:肠道morg。蒙特es dir ?6代币:heut将静脉肠道标签。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文件,指定为一个tokenizedDocument数组中。

`单词`- - - - - -输入单词
字符串向量|特征向量|单元阵列的特征向量

输入文字,指定为字符串向量,特征向量,或单元阵列特征向量。如果您指定单词作为一个特征向量,那么函数将参数作为一个单独的词。

数据类型:字符串|字符|细胞

`风格`- - - - - -归一化的风格
`“干细胞”`|`“引理”`

归一化风格,指定为以下之一:

“干细胞”——使用波特抽梗机干的话。此选项仅支持英语和德语文金宝app本。对于英语和德语文本,这是默认值。
“引理”——提取每个单词的字典形式。该选项支持英语、日语、和金宝app韩国的文本。如果一个词不是内部字典,然后函数输出字不变。英语文本,输出是小写的。对于日本和韩国的文本,这是默认值。

只有规范化令牌类型的函数“信”和“其他”。令牌类型的更多信息,请参阅tokenDetails。

提示

英语文本,提高词元化的单词在文档中,首先添加词性使用细节addPartOfSpeechDetails函数。

`语言`- - - - - -词的语言
`“en”`|`“德”`

文字语言,指定为以下之一:

“en”- - - - - -英语
“德”——德国语言

如果你不指定语言,软件自动检测语言。lemmatize日本或韩国文字,使用tokenizedDocument输入。

数据类型:字符|字符串

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新文件,作为一个返回tokenizedDocument数组中。

`updatedWords`——更新的话
字符串数组向量| |字符单元阵列的特征向量

更新的话说,作为一个字符串数组,返回字符向量,或单元阵列的特征向量。单词和updatedWords有相同的数据类型。

算法

全部折叠

语言细节

tokenizedDocument对象包含令牌的详细信息包括语言细节。语言输入文档的细节决定的行为normalizeWords。的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,使用语言选择tokenizedDocument。查看标记的细节,使用tokenDetails函数。

版本历史

介绍了R2017b

全部展开

R2018b:`normalizeWords`对复杂的令牌

从R2018b开始,tokenizedDocument输入,normalizeWords规范化的令牌型“信”或“其他”只有。这种行为可以防止功能影响复杂的令牌网址和电子邮件地址等。

在以前的版本中,normalizeWords使所有的令牌规范化。复制这种行为,使用命令updatedDocuments = docfun (@ (str) normalizeWords (str)、文档)。

另请参阅

normalizeWords

语法

描述

例子

干细胞在文档

阀杆在字符串数组

Lemmatize单词在文档中

Lemmatize日本文字

遏制德国的文本

输入参数

文档- - - - - -输入文档tokenizedDocument数组

单词- - - - - -输入单词字符串向量|特征向量|单元阵列的特征向量

风格- - - - - -归一化的风格“干细胞”|“引理”

语言- - - - - -词的语言“en”|“德”

输出参数

updatedDocuments——更新文档tokenizedDocument数组

updatedWords——更新的话字符串数组向量| |字符单元阵列的特征向量

算法

语言细节

版本历史

R2018b:normalizeWords对复杂的令牌

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`单词`- - - - - -输入单词
字符串向量|特征向量|单元阵列的特征向量

`风格`- - - - - -归一化的风格
`“干细胞”`|`“引理”`

`语言`- - - - - -词的语言
`“en”`|`“德”`

`updatedDocuments`——更新文档
`tokenizedDocument`数组

`updatedWords`——更新的话
字符串数组向量| |字符单元阵列的特征向量

R2018b:`normalizeWords`对复杂的令牌