normalizeWords

词干或词根化

折叠所有页面

语法

updatedDocuments = normalizeWords(文档)

updatedWords = normalizeWords(字)

updatedWords = normalizeWords(话说,“语言”,语言)

＿＿＿= normalizeWords (＿＿＿“风格”,风格)

描述

使用normalizeWords将单词简化为词根。来lemmatize英语单词(将它们缩减到字典形式)，设置“风格”选项“引理”．

该函数支持英语、日语、德语金宝app和韩语文本。

例子

updatedDocuments= normalizeWords (文档）简化了文档到一个根形式。对于英语和德语文本，默认情况下，该函数分别对使用波特词干符的英语和德语文本的单词进行词干。对于日语和韩语文本，默认情况下，该函数使用MeCab标记器对单词进行词根化。

例子

updatedWords= normalizeWords (单词）减少字符串数组中的每个单词单词到一个根形式。

updatedWords= normalizeWords (单词“语言”,语言）减少单词并指定单词语言。

例子

＿＿＿= normalizeWords (＿＿＿“风格”,风格）还指定了规范化样式。例如,normalizeWords(文档、“风格”、“引理”)将输入文档中的单词词根化。

例子

全部折叠

文档中的主干词

打开生活的脚本

使用波特词干符对文档数组中的单词进行词干。

文件= tokenizedDocument ([“措词强烈的词汇集”“另一个词集”]);newDocuments = normalizeWords(文档)

newDocuments = 2x1 tokenizedDocument: 6 tokens:一个strong word collection of word 4 tokens:另一个word collection

字符串数组中的词干

打开生活的脚本

使用波特词干符对字符串数组中的单词进行词干。字符串数组的每个元素都必须是一个单词。

话说= [“一个”“强烈”“措辞”“收集”“的”“单词”];newWords = normalizeWords(字)

newWords =1 x6字符串"a" "strongli" "word" "collect" "of" "word"

在文档中对单词进行词母化

打开生活的脚本

将文档数组中的单词解义。

文件= tokenizedDocument ([“我在盖房子。”“这栋楼有两层。”]);newDocuments = normalizeWords(文档,“风格”，“引理”）

newDocuments = 2x1 tokenizedDocument: 6 tokens: i be build a house。6代币:建筑有两层。

要改进词源化，首先使用addPartOfSpeechDetails函数。例如，如果文档包含词性细节，那么normalizeWords弱化了唯一的动词building而不是名词building。

= addPartOfSpeechDetails文件(文档);newDocuments = normalizeWords(文档,“风格”，“引理”）

newDocuments = 2x1 tokenizedDocument: 6 tokens: i be build a house。6代币:该建筑有两层。

Lemmatize日本文字

打开生活的脚本

标记日语文本使用tokenizedDocument函数。该功能自动检测日语文本。

str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文件= tokenizedDocument (str);

使用的令牌取义normalizeWords．

文件= normalizeWords(文档)

文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7代币:遠くの駅まで歩けるない。

遏制德国的文本

打开生活的脚本

标记德语文本使用tokenizedDocument函数。该功能自动检测德语文本。

str = [“早安。你的名字叫什么?”“这是我的线。”];文件= tokenizedDocument (str);

阻止token使用normalizeWords．

文件= normalizeWords(文档)

文档= 2x1 tokenizedDocument: 8 token: gut morg。你的名字叫什么?标记:内脏标记。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

`单词`- - - - - -输入单词
字符串向量|特征向量|字符向量的单元格数组

输入字，指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量，函数将参数视为单个单词。

数据类型:字符串|字符|细胞

`风格`- - - - - -归一化的风格
`“干细胞”`|`“引理”`

规范化样式，指定为下列样式之一:

“干细胞”-使用波特的词干。此选项仅支持英文和德文文金宝app本。对于英语和德语文本，这个值是默认值。
“引理”-提取每个单词的字典形式。此选项仅支持英语、日语和金宝app韩语文本。如果一个单词不在内部字典中，那么该函数将不加修改地输出该单词。对于英文文本，输出是小写的。对于日语和韩语文本，这个值是默认值。

该函数只对带有类型的标记进行规范化“信”和“其他”．有关令牌类型的更多信息，请参见tokenDetails．

提示

对于英语文本，要改进文档中单词的词元化，首先要使用的是添加词性细节addPartOfSpeechDetails函数。

`语言`- - - - - -词的语言
`“en”`|`“德”`

文字语言，指定为下列语言之一:

“en”- - - - - -英语
“德”——德国语言

如果您没有指定语言，软件会自动检测语言。要使日语或韩语的文本外义化，请使用tokenizedDocument输入。

数据类型:字符|字符串

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新的文档，返回为tokenizedDocument数组中。

`updatedWords`——更新的话
字符向量的单元格数组

更新的单词，作为字符串数组、字符向量或字符向量的单元格数组返回。单词和updatedWords具有相同的数据类型。

算法

全部折叠

语言细节

tokenizedDocument对象包含有关标记的详细信息，包括语言细节。输入文档的语言细节决定了normalizeWords．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。要手动指定语言细节，请使用“语言”的名称-值对参数tokenizedDocument．要查看令牌详细信息，请使用tokenDetails函数。

兼容性的考虑

全部展开

`normalizeWords`对复杂的令牌

R2018b中行为改变

从R2018b开始，fortokenizedDocument输入,normalizeWords用类型规范化标记“信”或“其他”只有。这种行为可以防止该功能影响复杂的令牌，如url和电子邮件地址。

在以前的版本中,normalizeWords使所有的令牌规范化。要重现此行为，请使用命令updatedDocuments = docfun(@(str)) normalizeWords(str)，documents)．

另请参阅

主题

介绍了R2017b

normalizeWords

语法

描述

例子

文档中的主干词

字符串数组中的词干

在文档中对单词进行词母化

Lemmatize日本文字

遏制德国的文本

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`单词`- - - - - -输入单词
字符串向量|特征向量|字符向量的单元格数组

`风格`- - - - - -归一化的风格
`“干细胞”`|`“引理”`

`语言`- - - - - -词的语言
`“en”`|`“德”`

输出参数

`updatedDocuments`——更新文档
`tokenizedDocument`数组

`updatedWords`——更新的话
字符向量的单元格数组

算法

语言细节

兼容性的考虑

`normalizeWords`对复杂的令牌

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

normalizeWords

语法

描述

例子

文档中的主干词

字符串数组中的词干

在文档中对单词进行词母化

Lemmatize日本文字

遏制德国的文本

输入参数

文档- - - - - -输入文档tokenizedDocument数组

单词- - - - - -输入单词字符串向量|特征向量|字符向量的单元格数组

风格- - - - - -归一化的风格“干细胞”|“引理”

语言- - - - - -词的语言“en”|“德”

输出参数

updatedDocuments——更新文档tokenizedDocument数组

updatedWords——更新的话字符向量的单元格数组

算法

语言细节

兼容性的考虑

normalizeWords对复杂的令牌

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`单词`- - - - - -输入单词
字符串向量|特征向量|字符向量的单元格数组

`风格`- - - - - -归一化的风格
`“干细胞”`|`“引理”`

`语言`- - - - - -词的语言
`“en”`|`“德”`

`updatedDocuments`——更新文档
`tokenizedDocument`数组

`updatedWords`——更新的话
字符向量的单元格数组

`normalizeWords`对复杂的令牌