主要内容

归一化词

词干或诱人的单词

描述

利用归一化词将单词减少到根部。至lematize英语单词(将它们简化为字典形式),设置'风格'选项'引理'

该功能支持英语,日语,德语金宝app和韩语文本。

例子

更新Documents=归一化词(文件减少单词文件到根部。对于英语和德语文本,默认情况下,该功能分别使用搬运工的英语和德语文本来驱动单词。对于日语和韩国文本,默认情况下,该功能使用mecab令牌来使单词误解。

例子

更新字=归一化词(减少字符串数组中的每个单词到根部。

更新字=归一化词(,'语',减少单词并指定语言一词。

例子

___=归一化词(___,'风格',风格还指定标准化样式。例如,归一化词(文档,“样式”,“引理”)插图输入文档中的单词。

例子

全部收缩

使用搬运工茎中的文档阵列中的单词。

documents = tokenizedDocument([“措辞强烈的单词集合”“另一个单词的集合”);newDocuments =归一化词(文档)
newDocuments = 2x1 tokenizedDocument:6代币:strongli单词收集单词4令牌:Anoth Word的收集

使用搬运工茎中的字符串阵列中的单词。字符串数组的每个元素都必须是一个单词。

单词= [“一个”“强烈”“措辞”“收藏”“的”“字”];newwords =标准词(单词)
newwords =1x6字符串“ a”“ strontli”“ word”“ collect”“ of”“ word”

插图文档数组中的单词。

documents = tokenizedDocument([“我正在盖房子。”“这座建筑有两层。”);newDocuments = normolizeWords(文档,'风格',,,,'引理'
newDocuments = 2x1 tokenizedDocument:6代币:我是建造房屋。6个令牌:构建有两层。

为了改善柠檬酸,首先使用词性详细信息添加到文档中AddPartofSpeechDetails功能。例如,如果文档包含词性详细信息,则归一化词减少唯一的动词“构建”,而不是名词“ building”。

documents = addPartofSpeechDetails(Documents);newDocuments = normolizeWords(文档,'风格',,,,'引理'
newDocuments = 2x1 tokenizedDocument:6代币:我是建造房屋。6个令牌:建筑物有两层。

使用象征性文档功能。该功能自动检测日语文本。

str = [“空にが,瞬いいる。”“空のがを増しいる。”“駅まで远く,歩け。”“远くのまでない”];文档= tokenizedDocument(str);

使用代币使用归一化词

文档=归一化词(文档)
documents = 4x1 tokenizedDocument: 10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。 10 tokens: 空 の 星 が 輝き を 増す て いる 。 9 tokens: 駅 まで は 遠い て 、 歩ける ない 。 7 tokens: 遠く の 駅 まで歩けるない。

使用的德语文字使用象征性文档功能。该功能自动检测德语文本。

str = [“ GutenMorgen。Wiegeht es dir?”“ heute wird ein guter标签。”];文档= tokenizedDocument(str);

使用代币使用归一化词

文档=归一化词(文档)
文档= 2x1 tokenizedDocument:8代币:肠道莫格。魏某geht ES目录 ?6个令牌:heut wird ein肠道标签。

输入参数

全部收缩

输入文档,指定为象征性文档大批。

输入单词,指定为字符串向量,字符向量或字符向量的单元格数组。如果指定作为角色向量,该函数将参数视为一个单词。

数据类型:细绳|char|细胞

标准化样式,指定为以下之一:

  • '干'- 使用搬运工的词干单词。此选项仅支持英语和德语文金宝app本。对于英语和德语文本,此值是默认值。

  • '引理'- 提取每个单词的字典形式。此选项仅支持英语,日语和金宝app韩语文本。如果单词不在内部字典中,则该函数将输出单词不变。对于英语文本,输出为小写。对于日语和韩语文本,此值是默认值。

该函数仅通过类型将令牌标准化“信件”'其他'。有关令牌类型的更多信息,请参阅tokendetails

小费

对于英语文本,为了改善文档中单词的柠檬酸化AddPartofSpeechDetails功能。

单词语言,指定为以下一种:

  • 'en'- 英语

  • 'de'- 德国的语言

如果您不指定语言,则该软件会自动检测语言。为了使日语或韩语文本魅力,请使用象征性文档输入。

数据类型:char|细绳

输出参数

全部收缩

更新的文档,返回为象征性文档大批。

更新的单词,作为字符串数组,字符向量或字符向量的单元格数组返回。更新字具有相同的数据类型。

算法

全部收缩

语言细节

象征性文档对象包含有关令牌的详细信息,包括语言详细信息。输入文档的语言详细信息确定归一化词。这象征性文档默认情况下,函数会自动检测输入文本的语言。要手动指定语言详细信息,请使用'语'名称值对参数象征性文档。要查看令牌详细信息,请使用tokendetails功能。

兼容性考虑

展开全部

R2018B中的行为发生了变化

在R2017b中引入