addEntityDetails

向文档添加实体标记

折叠所有页面

语法

updatedDocuments = addEntityDetails(文档)

updatedDocuments = addEntityDetails(文档名称、值)

描述

使用addEntityDetails向文档添加实体标记。

使用addEntityDetails在文本中检测人名、位置、组织和其他命名实体。这个过程被称为命名实体识别．

该函数支持英语、日语、德语金宝app和韩语文本。

例子

updatedDocuments= addEntityDetails (文档）中检测命名实体文档．该函数只向缺少实体细节的令牌添加细节。获取实体详细信息updatedDocuments,使用tokenDetails．

updatedDocuments= addEntityDetails (文档，名称,值）还使用一个或多个名称-值对指定其他选项。

提示

使用addEntityDetails在使用之前较低的，上，normalizeWords，removeWords,removeStopWords函数作为addEntityDetails使用被这些函数删除的信息。

例子

全部折叠

向文档添加命名实体标签

打开生活的脚本

创建标记化的文档数组。

str = [“玛丽搬到了马萨诸塞州的纳蒂克。”“John在MathWorks使用MATLAB。”];文件= tokenizedDocument (str);

属性将实体细节添加到文档中addEntityDetails函数。该函数检测文本中的已命名实体，并将详细信息添加到由tokenDetails函数。查看前几个令牌的更新令牌详细信息。

= addEntityDetails文件(文档);tdetails = tokenDetails(文档)

tdetails =13×8表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech实体类型语言  _______________ ______________ ______________ __________ ___________ ________ ____________ ____________ " 玛丽“1 1 1字母在专有名词人”搬到“1 1 1字母在动词走眼”到“1 1 1字母en adposition走眼”纳蒂克“1 1 1字母在专有名词location "," 1 1 1 punctuation en punctuation non-entity "Massachusetts" 1 1 1 letters en proper-noun location "." 1 1 1 punctuation en punctuation non-entity "John" 2 1 1 letters en proper-noun person "uses" 2 1 1 letters en verb non-entity "MATLAB" 2 1 1 letters en proper-noun other "at" 2 1 1 letters en adposition non-entity "MathWorks" 2 1 1 letters en proper-noun organization "." 2 1 1 punctuation en punctuation non-entity

查看带有实体标记的单词“人”，“位置”，“组织”,或“其他”．这些词是没有标记的词“走眼”．

idx = tdetails。实体~ =“走眼”；tdetails.Token (idx)

ans =6 x1字符串"Mary" "Natick" "Massachusetts" "John" "MATLAB" "MathWorks"

添加命名实体标签日文文本

打开生活的脚本

标记日语文本使用tokenizedDocument．

str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅で鈴木さんに迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];文件= tokenizedDocument (str);

对于日文文本，软件自动添加命名实体标签，所以您不需要使用addEntityDetails函数。该软件检测人名、位置、组织和其他命名实体。要查看实体详细信息，请使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)

ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ____________ ______________ __________ _______ ________ ____________ ____________ __________ " マリー“1 1字母是专有名词“マリー“人”さん“1 1字母是名词“さんは“人”“1 1”字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から”11字母ja adposition“から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼

查看带有实体标记的单词“人”，“位置”，“组织”,或“其他”．这些词是没有标记的词“走眼”．

idx = tdetails。实体~ =“走眼”；tdetails (idx:)。令牌

ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

向德文文本添加命名实体标签

打开生活的脚本

使用标记德语文本tokenizedDocument．

str = ["恩斯特·佐格·冯·法兰克福和柏林"“沃尔夫斯堡的大众汽车。”];文件= tokenizedDocument (str);

要向德文文本添加实体标记，请使用addEntityDetails函数。此函数检测人名、位置、组织和其他命名实体。

= addEntityDetails文件(文档);

要查看实体详细信息，请使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)

ans =8×8表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech实体类型语言  ___________ ______________ ______________ __________ ___________ ________ ____________ __________ " 恩斯特佐格“1 1 1字母de专有名词的人”“1 1 1字母de动词走眼”冯“1 1 1字母de adposition走眼”法兰克福de专有名词“1 1 1字母位置"nach" 1 1 1个字母非实体"柏林" 1 1 1个字母专有名词位置"。1 1 1标点de标点走眼”Besuchen“2 1 1字母de动词走眼

查看带有实体标记的单词“人”，“位置”，“组织”,或“其他”．这些词是没有标记的词“走眼”．

idx = tdetails。实体~ =“走眼”；tdetails (idx:)

ans =5×8表Token DocumentNumber SentenceNumber LineNumber Type Language parttofspeech Entity ____________ ______________ ______________ __________ _______ ________ ____________ ____________ "Ernst" 1 1 1 letters de proper-noun person "Frankfurt" 1 1 1 letters de proper-noun location "Berlin" 1 1 1 letters de proper-noun location "Volkswagen" 2 1 1 letters de名词组织“沃尔夫斯堡”2 1个字母专有名词位置

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:“DiscardKnownValues”,真的指定放弃先前计算的详细信息并重新计算它们。

`“RetokenizeMethod”`- - - - - -方法来重新标记文档
`“实体”`(默认)|`“没有”`

方法来重新标记文档，指定为以下方法之一:

“实体”—转换标记以进行命名实体识别。该函数将来自同一实体的令牌合并为单个令牌。
“没有”-不要重新标记文档。

`“DiscardKnownValues”`- - - - - -选择放弃先前计算的细节
`假`(默认)|`真正的`

选择放弃先前计算的细节并重新计算它们，指定为真正的或假．

数据类型:逻辑

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新的文档，返回为tokenizedDocument数组中。获取令牌的详细信息updatedDocuments,使用tokenDetails．

算法

全部折叠

语言细节

tokenizedDocument对象包含有关标记的详细信息，包括语言细节。输入文档的语言细节决定了addEntityDetails．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。要手动指定语言细节，请使用“语言”的名称-值对参数tokenizedDocument．要查看令牌详细信息，请使用tokenDetails函数。

另请参阅

主题

介绍了R2019a

addEntityDetails

语法

描述

例子

向文档添加命名实体标签

添加命名实体标签日文文本

向德文文本添加命名实体标签

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值对的观点

`“RetokenizeMethod”`- - - - - -方法来重新标记文档
`“实体”`(默认)|`“没有”`

`“DiscardKnownValues”`- - - - - -选择放弃先前计算的细节
`假`(默认)|`真正的`

输出参数

`updatedDocuments`——更新文档
`tokenizedDocument`数组

算法

语言细节

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

addEntityDetails

语法

描述

例子

向文档添加命名实体标签

添加命名实体标签日文文本

向德文文本添加命名实体标签

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值对的观点

“RetokenizeMethod”- - - - - -方法来重新标记文档“实体”(默认)|“没有”

“DiscardKnownValues”- - - - - -选择放弃先前计算的细节假(默认)|真正的

输出参数

updatedDocuments——更新文档tokenizedDocument数组

算法

语言细节

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`“RetokenizeMethod”`- - - - - -方法来重新标记文档
`“实体”`(默认)|`“没有”`

`“DiscardKnownValues”`- - - - - -选择放弃先前计算的细节
`假`(默认)|`真正的`

`updatedDocuments`——更新文档
`tokenizedDocument`数组