主要内容

tokenDetails

标记化文档数组中标记的详细信息

描述

例子

tdetails= tokenDetails (文档控件中的令牌返回令牌详细信息的表tokenizedDocument数组文档

例子

全部折叠

创建一个标记化文档数组。

STR = [...“这是一个示例文档。有两句话。”“这份文件只有一句话和一个表情符号。:)”这是另一个文档示例。: D”];documents = tokenizedDocument(str);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "是" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "。"11 1个标点符号en“It”11个字母en”有“11个字母en”

类型变量包含每个令牌的类型。查看文档中的表情符号。

Idx = tdetails。类型= =“表情符号”;tdetails (idx:)
ans =2×5表令牌DocumentNumber LineNumber类型语言  _____ ______________ __________ ________ ________ ":)"2 1个表情符号“:D”3 1个表情符号“

创建一个标记化文档数组。

STR = [...“这是一个示例文档。有两句话。”“这份文件只有一句话。”这是另一个文档示例。它还有两句话。”];documents = tokenizedDocument(str);

为文档添加句子细节addSentenceDetails.该函数将语句号添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

文档= addSentenceDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1个标点符号“It”1 2 1个字母“en”有“1 2 1个字母en”

查看第三个文档的第二句话的标记细节。

Idx = tdetails。DocumentNumber== 3 &...tdetails。SentenceNumber == 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt,以换行符将文本分割为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ " fairrest " 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en "因此" 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 11 1个字母en

属性向文档添加词性细节addPartOfSpeechDetails函数。这个函数首先向文档添加句子信息,然后将词性标记添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

文档= addPartOfSpeechDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
标记DocumentNumber SentenceNumber LineNumber类型语言parttofspeech ___________ ______________ ______________ __________ _______ ________ ______________“fairrest”1 1 1个字母形容词“creatures”1 1 1个字母名词“desire”1 1 1个字母名词“increase”1 1 1个字母名词“beauys”1 1 1个字母名词“rose”1 1 1个字母名词“might”1 1 1 1个字母助动词

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输出参数

全部折叠

令牌详细信息表。tdetails具有以下变量:

的名字 描述
令牌 令牌文本,作为字符串标量返回。
DocumentNumber 令牌所属的文档索引,作为正整数返回。
SentenceNumber 文档中令牌的句数,以正整数返回。如果这些细节缺失,那么先添加句子细节文档使用addSentenceDetails函数。
LineNumber 文档中令牌的行号,作为正整数返回。
类型

令牌的类型,作为以下类型之一返回:

  • -只包含字母的字符串

  • 数字-仅为数字字符串

  • 标点符号-只包含标点符号和符号字符的字符串

  • 电子邮件地址-检测到的电子邮件地址

  • 网站地址-检测到的网址

  • 标签-检测到的标签(以“#”字符后跟字母)

  • 一提到他-检测到提及(以“@”字符)

  • 表情符号-检测到的表情

  • emoji-检测表情符号

  • 其他-不属于前面的类型,也不是自定义类型

如果缺少这些细节,则首先将类型细节添加到文档使用addTypeDetails函数。

语言

标记的语言,作为以下语言之一返回:

  • - - - - - -英语

  • 晶澳——日本

  • ——德国

  • ko——韩国

这些语言细节决定的行为removeStopWordsaddPartOfSpeechDetailsnormalizeWordsaddSentenceDetails,addEntityDetails函数。

如果缺少这些细节,则首先将语言细节添加到文档使用addLanguageDetails函数。

有关文本分析工具箱™中的语言支持的更多信息,请参见金宝app语言的注意事项

PartOfSpeech

词性标签,作为以下标签之一返回:

  • 形容词——形容词

  • adposition——Adposition

  • 副词——副词

  • 助动词-助动词

  • coord-conjunction-协调连接

  • 决定因素——决定因素

  • 感叹词——感叹词

  • 名词- - - - - -名词

  • 数字——数字

  • 粒子——粒子

  • 代词——代词

  • 专有名词-专有名词

  • 标点符号(标点符号

  • subord-conjunction-从属连词

  • 象征——象征

  • 动词——动词

  • 其他——其他

如果缺少这些细节,则首先添加词性细节文档使用addPartOfSpeechDetails函数。

实体

实体标记,指定为以下标记之一:

  • 位置-检测位置

  • 组织-被检测组织

  • -被发现的人

  • 其他-检测到的实体,不属于上述类别

  • 走眼-未检测到实体

如果缺少这些细节,则首先将实体细节添加到文档使用addEntityDetails函数。

引理

引理的形式。如果缺少这些细节,则首先将引理细节添加到文档使用addLemmaDetails函数。

语法依赖项头,指定为此标记修改的标记的索引。如果缺少这些细节,则首先将语法依赖细节添加到文档使用addDependencyDetails函数。
依赖

语法依赖项类型,指定为这些标记之一。

这里列出的依赖类型只是一个子集。有关依赖项类型(包括子类型)的完整列表,请参见[1]

  • acl-名词的从句修饰语(名词性从句)

  • advcl-状语从句修饰语

  • advmod-状语修饰语

  • amod-形容词修饰词

  • 奥博金-同位语修饰语

  • 辅助——辅助

  • 情况下-箱子标记

  • cc-协调连接

  • ccomp-从句补语

  • clf——分类器

  • 复合——复合

  • 连词——结合的

  • 警察——连系动词

  • csubj-从句主语

  • -未指定的依赖项

  • 依据——决定因素

  • 话语-话语元素

  • 脱臼-错位元件

  • expl——脏话

  • 固定-固定多字表达式

  • -平面多字表达式

  • goeswith-与

  • iobj-间接宾语

  • 列表——列表

  • 马克——标记

  • nmod-名义修饰符

  • nsubj-名义主题

  • nummod-数字修饰符

  • obj- - - - - -对象

  • 长方形的-斜标称

  • 孤儿——孤儿

  • 并列——并列

  • punct(标点符号

  • reparandum-覆盖中断

  • ——根

  • 称呼的——呼格

  • xcomp-开放从句补语

如果缺少这些细节,则首先将语法依赖细节添加到文档使用addDependencyDetails函数。

参考文献

版本历史

在R2018a中引入

全部展开