主要内容

addEntityDetails

实体标记添加到文档

自从R2019a

描述

使用addEntityDetails实体标记添加到文档。

使用addEntityDetails检测人名、地点、组织和其他命名实体在文本。这个过程被称为命名实体识别

函数支持英语、日语、德语,金宝app和韩国的文本。

例子

updatedDocuments= addEntityDetails (文档)检测中的命名实体文档。函数将细节添加到标记与失踪的实体的细节。实体的细节updatedDocuments,使用tokenDetails

updatedDocuments= addEntityDetails (文档,名称,值)还指定附加选项使用一个或多个名称-值对。

提示

使用addEntityDetails在使用之前较低的,,normalizeWords,removeWords,removeStopWords函数作为addEntityDetails这些函数使用的信息删除。

例子

全部折叠

创建一个标记化的文档数组。

str = [“玛丽搬到纳蒂克,麻萨诸塞州。”“约翰在MathWorks使用MATLAB。”];文件= tokenizedDocument (str);

使用实体的细节添加到文档addEntityDetails函数。该函数检测文本中的命名实体,并将细节添加到表返回的tokenDetails函数。查看更新后的令牌最初几个令牌的详细信息。

= addEntityDetails文件(文档);tdetails = tokenDetails(文档)
tdetails =13×8表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体是_____________ __________售予* * * ___________ ________ _______ _______“玛丽”1 1 1字母在专有名词人”搬到“1 1 1字母在动词走眼”“1 1 1字母en adposition走眼“纳蒂克”1 1 1字母在专有名词的位置”、“1 1 1标点符号在标点走眼“麻省”1 1 1字母在专有名词的位置“。”1 1 1 punctuation en punctuation non-entity "John" 2 1 1 letters en proper-noun person "uses" 2 1 1 letters en verb non-entity "MATLAB" 2 1 1 letters en proper-noun other "at" 2 1 1 letters en adposition non-entity "MathWorks" 2 1 1 letters en proper-noun organization "." 2 1 1 punctuation en punctuation non-entity

查看单词标记的实体“人”,“位置”,“组织”,或“其他”。这些话是没有标记“走眼”

idx = tdetails。实体~ =“走眼”;tdetails.Token (idx)
ans =6 x1字符串“玛丽”“纳蒂克”“麻省”“约翰”“MATLAB”“MathWorks”

日本标记文本使用tokenizedDocument

str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅へ鈴木さんを迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];文件= tokenizedDocument (str);

对日本文字,软件自动添加命名实体标记,所以您不需要使用addEntityDetails函数。这个软件检测到人名、地点、组织和其他命名实体。查看实体细节,使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber LineNumber类型语言PartOfSpeech引理实体_______是_____________ __________ ________ _______ _______ _____”マリー“1 1字母是专有名词“マリー”人“さん“1 1字母是名词“さん”人“は”1 1字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から“1 1字母ja adposition”から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼

查看单词标记的实体“人”,“位置”,“组织”,或“其他”。这些话是没有标记“走眼”

idx = tdetails。实体~ =“走眼”;.Token tdetails (idx:)
ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

德国标记文本使用tokenizedDocument

str = [“佐格恩斯特·冯·法兰克福去柏林。”“Besuchen您在沃尔夫斯堡大众。”];文件= tokenizedDocument (str);

实体标记添加到德国文本使用addEntityDetails函数。该函数检测人名、地点、组织和其他命名实体。

= addEntityDetails文件(文档);

查看实体细节,使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________ PartOfSpeech实体……* * * ___________ ________ _______ __________“安永”1 1 1字母de专有名词的人“佐格”1 1 1字母de走眼动词“冯”1 1 1字母de adposition走眼de专有名词“法兰克福”1 1 1字母位置“票”1 1 1字母de adposition走眼de专有名词“柏林”1 1 1字母位置”。“1 1 1 punctuation de punctuation non-entity "Besuchen" 2 1 1 letters de verb non-entity

查看单词标记的实体“人”,“位置”,“组织”,或“其他”。这些话是没有标记“走眼”

idx = tdetails。实体~ =“走眼”;tdetails (idx:)
ans =5×8表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech实体__________和________ _______是_____________ * * * _______ _______“安永”1 1 1字母de专有名词的人“法兰克福”1 1 1字母de专有名词的位置“柏林”1 1 1字母de专有名词的位置“大众”2 1 1字母de名词组织“沃尔夫斯堡”2 1 1字母de专有名词的位置

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:DiscardKnownValues = true指定抛弃以前计算的细节和验算。

方法retokenize文件,指定为以下之一:

  • “实体”——变换命名实体识别的标记。函数合并令牌相同的实体到一个令牌。

  • “没有”——不retokenize文档。

选择丢弃之前计算的细节和验算,指定为真正的

数据类型:逻辑

自从R2023a

定制尼珥模型,指定这些值之一:

输出参数

全部折叠

更新文件,作为一个返回tokenizedDocument数组中。获得令牌的细节updatedDocuments,使用tokenDetails

算法

全部折叠

语言细节

tokenizedDocument对象包含令牌的详细信息包括语言细节。语言输入文档的细节决定的行为addEntityDetails。的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,使用语言选择tokenizedDocument。查看标记的细节,使用tokenDetails函数。

版本历史

介绍了R2019a

全部展开