主要内容

addEntityDetails

向文档添加实体标记

描述

使用addEntityDetails向文档添加实体标记。

使用addEntityDetails在文本中检测人名、位置、组织和其他命名实体。这个过程被称为命名实体识别

该函数支持英语、日语、德语金宝app和韩语文本。

例子

updatedDocuments= addEntityDetails (文档中检测命名实体文档.该函数只向缺少实体细节的令牌添加细节。获取实体详细信息updatedDocuments,使用tokenDetails

updatedDocuments= addEntityDetails (文档名称,值还使用一个或多个名称-值对指定其他选项。

提示

使用addEntityDetails在使用之前较低的normalizeWordsremoveWords,removeStopWords函数作为addEntityDetails使用被这些函数删除的信息。

例子

全部折叠

创建标记化的文档数组。

str = [“玛丽搬到了马萨诸塞州的纳蒂克。”“John在MathWorks使用MATLAB。”];文件= tokenizedDocument (str);

属性将实体细节添加到文档中addEntityDetails函数。该函数检测文本中的已命名实体,并将详细信息添加到由tokenDetails函数。查看前几个令牌的更新令牌详细信息。

= addEntityDetails文件(文档);tdetails = tokenDetails(文档)
tdetails =13×8表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech实体类型语言  _______________ ______________ ______________ __________ ___________ ________ ____________ ____________ " 玛丽“1 1 1字母在专有名词人”搬到“1 1 1字母在动词走眼”到“1 1 1字母en adposition走眼”纳蒂克“1 1 1字母在专有名词location "," 1 1 1 punctuation en punctuation non-entity "Massachusetts" 1 1 1 letters en proper-noun location "." 1 1 1 punctuation en punctuation non-entity "John" 2 1 1 letters en proper-noun person "uses" 2 1 1 letters en verb non-entity "MATLAB" 2 1 1 letters en proper-noun other "at" 2 1 1 letters en adposition non-entity "MathWorks" 2 1 1 letters en proper-noun organization "." 2 1 1 punctuation en punctuation non-entity

查看带有实体标记的单词“人”“位置”“组织”,或“其他”.这些词是没有标记的词“走眼”

idx = tdetails。实体~ =“走眼”;tdetails.Token (idx)
ans =6 x1字符串"Mary" "Natick" "Massachusetts" "John" "MATLAB" "MathWorks"

标记日语文本使用tokenizedDocument

str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅で鈴木さんに迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];文件= tokenizedDocument (str);

对于日文文本,软件自动添加命名实体标签,所以您不需要使用addEntityDetails函数。该软件检测人名、位置、组织和其他命名实体。要查看实体详细信息,请使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ____________ ______________ __________ _______ ________ ____________ ____________ __________ " マリー“1 1字母是专有名词“マリー“人”さん“1 1字母是名词“さんは“人”“1 1”字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から”11字母ja adposition“から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼

查看带有实体标记的单词“人”“位置”“组织”,或“其他”.这些词是没有标记的词“走眼”

idx = tdetails。实体~ =“走眼”;tdetails (idx:)。令牌
ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

使用标记德语文本tokenizedDocument

str = ["恩斯特·佐格·冯·法兰克福和柏林"“沃尔夫斯堡的大众汽车。”];文件= tokenizedDocument (str);

要向德文文本添加实体标记,请使用addEntityDetails函数。此函数检测人名、位置、组织和其他命名实体。

= addEntityDetails文件(文档);

要查看实体详细信息,请使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech实体类型语言  ___________ ______________ ______________ __________ ___________ ________ ____________ __________ " 恩斯特佐格“1 1 1字母de专有名词的人”“1 1 1字母de动词走眼”冯“1 1 1字母de adposition走眼”法兰克福de专有名词“1 1 1字母位置"nach" 1 1 1个字母非实体"柏林" 1 1 1个字母专有名词位置"。1 1 1标点de标点走眼”Besuchen“2 1 1字母de动词走眼

查看带有实体标记的单词“人”“位置”“组织”,或“其他”.这些词是没有标记的词“走眼”

idx = tdetails。实体~ =“走眼”;tdetails (idx:)
ans =5×8表Token DocumentNumber SentenceNumber LineNumber Type Language parttofspeech Entity ____________ ______________ ______________ __________ _______ ________ ____________ ____________ "Ernst" 1 1 1 letters de proper-noun person "Frankfurt" 1 1 1 letters de proper-noun location "Berlin" 1 1 1 letters de proper-noun location "Volkswagen" 2 1 1 letters de名词组织“沃尔夫斯堡”2 1个字母专有名词位置

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“DiscardKnownValues”,真的指定放弃先前计算的详细信息并重新计算它们。

方法来重新标记文档,指定为以下方法之一:

  • “实体”—转换标记以进行命名实体识别。该函数将来自同一实体的令牌合并为单个令牌。

  • “没有”-不要重新标记文档。

选择放弃先前计算的细节并重新计算它们,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新的文档,返回为tokenizedDocument数组中。获取令牌的详细信息updatedDocuments,使用tokenDetails

算法

全部折叠

语言细节

tokenizedDocument对象包含有关标记的详细信息,包括语言细节。输入文档的语言细节决定了addEntityDetails.的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,请使用“语言”的名称-值对参数tokenizedDocument.要查看令牌详细信息,请使用tokenDetails函数。

介绍了R2019a