正常化字

茎或鼠里言语

页面上倒塌

句法

UpdatedDocuments = rangerizewords（文档）

更新字= rangerizewords（单词）

UpdatedWords = NormalizeWords（单词，“语言”，语言）

___= rangerizewords（___，'风格'，风格）

描述

采用正常化字将单词减少到根形式。到lemmatize.英语单词（将它们减少到他们的字典表单），设置'风格'选择'引理'。

该功能支持英语，日语，德语金宝app和韩文文本。

例子

更新= rangerizewords（文件）减少单词文件到根形式。对于英语和德语文本，默认情况下，函数默默地窃听使用Porter Sewer的单词分别用于英语和德语文本。对于日语和韩文文本，默认情况下，函数默默地释放使用MECAB牌授权程序的单词。

例子

更新字= rangerizewords（字）在字符串数组中减少每个单词字到根形式。

更新字= rangerizewords（字，'语'，语）减少单词并指定单词语言。

例子

___= rangerizewords（___，'风格'，风格）还指定了归一化样式。例如，正常化字（文档，'风格'，'lemma'）在输入文档中释放单词。

例子

全部收缩

文字中的文字

打开直播脚本

使用porter stemmer栓文档阵列中的单词。

文档= tokenizeddocument（[“一个强烈措辞的单词集合”“另一个单词集合”]）;newdocuments = normalizewords（文档）

newdocuments = 2x1 tokenizeddocument：6个令牌：一个strongli字收集字4令牌：Anoth收集单词

字符串数组中的词干词

打开直播脚本

使用Porter Seftmer源字符串数组中的单词。字符串数组的每个元素必须是单个单词。

单词= [“一个”“强烈”“措辞”“收藏”“的”“字”];新字= rangerizewords（单词）

新字=1x6字符串“”strongli“”字“”收集“”词“

在文件中释放文字

打开直播脚本

在文档阵列中释放单词。

文档= tokenizeddocument（[“我正在建房子。”“建筑有两层。”]）;newdocuments = normalizewords（文档，'风格'那'引理'）

newdocuments = 2x1 tokenizeddocument：6个令牌：我是一个房子。6令牌：建造有两层。

为了提高lemmatization，首先使用言语部分添加到文件中的言语细节addpartofspeechdetails.功能。例如，如果文档包含言语部分的细节，那么正常化字减少唯一的动词“建筑”而不是名词“建筑”。

文档= addpartofspeechdetails（文件）;newdocuments = normalizewords（文档，'风格'那'引理'）

newdocuments = 2x1 tokenizeddocument：6个令牌：我是一个房子。6令牌：该建筑有两层楼。

lemmatize日语文本

打开直播脚本

使用授权日本文本令人畏缩的鳕文功能。该功能会自动检测日文文本。

str = [“空に星が辉き，瞬いている。”“空の星が辉きを増している。”“駅駅までは远く，歩け歩け。”“远くの駅まで歩けない。”];文档=令授权鳕（str）;

使用令牌释放令牌正常化字。

文档= rangerizewords（文档）

文档= 4x1令牌Document：10令牌：空空星が辉く，瞬くている。10令牌：空の星が辉きをている。9令牌：駅までは远いて，歩けるない。7令牌：远く远く駅まで歩けるない。

干德文文本

打开直播脚本

使用授权德国文本令人畏缩的鳕文功能。该功能会自动检测德语文本。

str = [“Guten Morgen。Wie Geht es dir？”“Heute Wird Ein Guter标签。”];文档=令授权鳕（str）;

用来茎干正常化字。

文档= rangerizewords（文档）

文档= 2x1令牌Document：8令牌：肠摩尔。魏某geht ES目录 ？6令牌：Heut Wird Ein Gut标签。

输入参数

全部收缩

`文件`-输入文件
`令人畏缩的鳕文`大批

输入文档，指定为a令人畏缩的鳕文大批。

`字`-输入单词
弦矢量|字符向量|字符向量的单元格阵列

输入单词，指定为字符串向量，字符向量或字符向量的单元数组。如果您指定字作为字符向量，那么该函数将参数视为单个单词。

数据类型：细绳|char|细胞

`风格`-标准化风格
`'干'`|`'引理'`

标准化样式，指定为以下之一：

'干'- 使用Porter Sewermer的词干词。此选项仅支持英语和德语文金宝app本。对于英语和德语文本，此值是默认值。
'引理'- 提取每个单词的字典形式。此选项仅支持英语，日语和金宝app韩语文本。如果单词不在内部字典中，则该函数输出不变的单词。对于英文文本，输出为小写。对于日语和韩文文本，此值是默认值。

该函数仅用类型标准化令牌'字母'和'其他'。有关令牌类型的更多信息，请参阅令敬当。

提示

对于英语文本，为了提高文档中的单词的lemmatization，首先使用言语的部分使用addpartofspeechdetails.功能。

`语`-单词语言
`'en'`|`'de'`

单词语言指定为以下内容之一：

'en'- 英语
'de'- 德国的语言

如果未指定语言，则软件会自动检测语言。释放日语或韩语文本，使用令人畏缩的鳕文输入。

数据类型：char|细绳

输出参数

全部收缩

`更新`- 更新的文件
`令人畏缩的鳕文`大批

更新的文件，返回A.令人畏缩的鳕文大批。

`更新字`- 更新了单词
字符串阵列|字符矢量|字符向量的单元格阵列

更新的单词，作为字符串阵列，字符向量或字符向量阵列返回。字和更新字具有相同的数据类型。

算法

全部收缩

语言细节

令人畏缩的鳕文对象包含有关令牌的详细信息，包括语言详细信息。输入文档的语言细节确定了行为正常化字。这令人畏缩的鳕文默认情况下，函数会自动检测输入文本的语言。要手动指定语言详细信息，请使用'语'名称 - 值对参数令人畏缩的鳕文。要查看令牌详细信息，请使用令敬当功能。

兼容性考虑因素

展开全部

`正常化字`跳过复杂的令牌

R2018B的行为更改

从R2018B开始，为令人畏缩的鳕文输入，正常化字用类型归一成令牌'字母'或者'其他'只要。此行为可防止函数影响复杂令牌，例如URL和电子邮件地址。

在以前的版本中，正常化字所有令牌正常化。要重现此行为，请使用该命令updateddocuments = docfun（@（str）normalizewords（str），文档）。

也可以看看

话题

在R2017B中介绍

正常化字

句法

描述

例子

文字中的文字

字符串数组中的词干词

在文件中释放文字

lemmatize日语文本

干德文文本

输入参数

`文件`-输入文件
`令人畏缩的鳕文`大批

`字`-输入单词
弦矢量|字符向量|字符向量的单元格阵列

`风格`-标准化风格
`'干'`|`'引理'`

`语`-单词语言
`'en'`|`'de'`

输出参数

`更新`- 更新的文件
`令人畏缩的鳕文`大批

`更新字`- 更新了单词
字符串阵列|字符矢量|字符向量的单元格阵列

算法

语言细节

兼容性考虑因素

`正常化字`跳过复杂的令牌

也可以看看

话题

文本分析工具箱文档

金宝app

在Matlab中的文本分析入门

正常化字

句法

描述

例子

文字中的文字

字符串数组中的词干词

在文件中释放文字

lemmatize日语文本

干德文文本

输入参数

文件-输入文件令人畏缩的鳕文大批

字-输入单词弦矢量|字符向量|字符向量的单元格阵列

风格-标准化风格'干'|'引理'

语-单词语言'en'|'de'

输出参数

更新- 更新的文件令人畏缩的鳕文大批

更新字- 更新了单词字符串阵列|字符矢量|字符向量的单元格阵列

算法

语言细节

兼容性考虑因素

正常化字跳过复杂的令牌

也可以看看

话题

文本分析工具箱文档

金宝app

在Matlab中的文本分析入门

`文件`-输入文件
`令人畏缩的鳕文`大批

`字`-输入单词
弦矢量|字符向量|字符向量的单元格阵列

`风格`-标准化风格
`'干'`|`'引理'`

`语`-单词语言
`'en'`|`'de'`

`更新`- 更新的文件
`令人畏缩的鳕文`大批

`更新字`- 更新了单词
字符串阵列|字符矢量|字符向量的单元格阵列

`正常化字`跳过复杂的令牌