tokenDetails

标记化文档数组中标记的详细信息

折叠所有页面

语法

tdetails = tokenDetails(文档)

描述

例子

tdetails= tokenDetails (文档）控件中的令牌返回令牌详细信息的表tokenizedDocument数组文档．

例子

全部折叠

查看文档的Token详细信息

打开实时脚本

创建一个标记化文档数组。

STR = [.．.“这是一个示例文档。有两句话。”“这份文件只有一句话和一个表情符号。:)”这是另一个文档示例。: D”];documents = tokenizedDocument(str);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)

令牌DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "是" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "。"11 1个标点符号en“It”11个字母en”有“11个字母en”

的类型变量包含每个令牌的类型。查看文档中的表情符号。

Idx = tdetails。类型= =“表情符号”；tdetails (idx:)

ans =2×5表令牌DocumentNumber LineNumber类型语言  _____ ______________ __________ ________ ________ ":)"2 1个表情符号“:D”3 1个表情符号“

为文档添加句子细节

打开实时脚本

创建一个标记化文档数组。

STR = [.．.“这是一个示例文档。有两句话。”“这份文件只有一句话。”这是另一个文档示例。它还有两句话。”];documents = tokenizedDocument(str);

为文档添加句子细节addSentenceDetails．该函数将语句号添加到返回的表中tokenDetails．查看前几个令牌的更新令牌详细信息。

文档= addSentenceDetails(文档);tdetails = tokenDetails(文档);头(tdetails)

令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1个标点符号“It”1 2 1个字母“en”有“1 2 1个字母en”

查看第三个文档的第二句话的标记细节。

Idx = tdetails。DocumentNumber== 3 &.．.tdetails。SentenceNumber == 2;tdetails (idx:)

ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

为文档添加词性细节

打开实时脚本

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，用空格分隔单词。从中提取文本sonnetsPreprocessed.txt，以换行符将文本分割为文档，然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)

令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ " fairrest " 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en "因此" 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 11 1个字母en

属性向文档添加词性细节addPartOfSpeechDetails函数。这个函数首先向文档添加句子信息，然后将词性标记添加到返回的表中tokenDetails．查看前几个令牌的更新令牌详细信息。

文档= addPartOfSpeechDetails(文档);tdetails = tokenDetails(文档);头(tdetails)

标记DocumentNumber SentenceNumber LineNumber类型语言parttofspeech ___________ ______________ ______________ __________ _______ ________ ______________“fairrest”1 1 1个字母形容词“creatures”1 1 1个字母名词“desire”1 1 1个字母名词“increase”1 1 1个字母名词“beauys”1 1 1个字母名词“rose”1 1 1个字母名词“might”1 1 1 1个字母助动词

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

输出参数

全部折叠

`tdetails`-令牌详细信息表
表格

令牌详细信息表。tdetails具有以下变量:

的名字	描述
`令牌`	令牌文本，作为字符串标量返回。
`DocumentNumber`	令牌所属的文档索引，作为正整数返回。
`SentenceNumber`	文档中令牌的句数，以正整数返回。如果这些细节缺失，那么先添加句子细节`文档`使用`addSentenceDetails`函数。
`LineNumber`	文档中令牌的行号，作为正整数返回。
`类型`	令牌的类型，作为以下类型之一返回: `信`-只包含字母的字符串 `数字`-仅为数字字符串 `标点符号`-只包含标点符号和符号字符的字符串 `电子邮件地址`-检测到的电子邮件地址 `网站地址`-检测到的网址 `标签`-检测到的标签(以`“#”`字符后跟字母) `一提到他`-检测到提及(以`“@”`字符) `表情符号`-检测到的表情 `emoji`-检测表情符号 `其他`-不属于前面的类型，也不是自定义类型如果缺少这些细节，则首先将类型细节添加到`文档`使用`addTypeDetails`函数。
`语言`	标记的语言，作为以下语言之一返回: `在`- - - - - -英语 `晶澳`——日本 `德`——德国 `ko`——韩国这些语言细节决定的行为`removeStopWords`，`addPartOfSpeechDetails`，`normalizeWords`，`addSentenceDetails`,`addEntityDetails`函数。如果缺少这些细节，则首先将语言细节添加到`文档`使用`addLanguageDetails`函数。有关文本分析工具箱™中的语言支持的更多信息，请参见金宝app语言的注意事项．
`PartOfSpeech`	词性标签，作为以下标签之一返回: `形容词`——形容词 `adposition`——Adposition `副词`——副词 `助动词`-助动词 `coord-conjunction`-协调连接 `决定因素`——决定因素 `感叹词`——感叹词 `名词`- - - - - -名词 `数字`——数字 `粒子`——粒子 `代词`——代词 `专有名词`-专有名词 `标点符号`(标点符号 `subord-conjunction`-从属连词 `象征`——象征 `动词`——动词 `其他`——其他如果缺少这些细节，则首先添加词性细节`文档`使用`addPartOfSpeechDetails`函数。
`实体`	实体标记，指定为以下标记之一: `位置`-检测位置 `组织`-被检测组织 `人`-被发现的人 `其他`-检测到的实体，不属于上述类别 `走眼`-未检测到实体如果缺少这些细节，则首先将实体细节添加到`文档`使用`addEntityDetails`函数。
`引理`	引理的形式。如果缺少这些细节，则首先将引理细节添加到`文档`使用`addLemmaDetails`函数。
`头`	语法依赖项头，指定为此标记修改的标记的索引。如果缺少这些细节，则首先将语法依赖细节添加到`文档`使用`addDependencyDetails`函数。
`依赖`	语法依赖项类型，指定为这些标记之一。这里列出的依赖类型只是一个子集。有关依赖项类型(包括子类型)的完整列表，请参见[1]． `acl`-名词的从句修饰语(名词性从句) `advcl`-状语从句修饰语 `advmod`-状语修饰语 `amod`-形容词修饰词 `奥博金`-同位语修饰语 `辅助`——辅助 `情况下`-箱子标记 `cc`-协调连接 `ccomp`-从句补语 `clf`——分类器 `复合`——复合 `连词`——结合的 `警察`——连系动词 `csubj`-从句主语 `部`-未指定的依赖项 `依据`——决定因素 `话语`-话语元素 `脱臼`-错位元件 `expl`——脏话 `固定`-固定多字表达式 `平`-平面多字表达式 `goeswith`-与 `iobj`-间接宾语 `列表`——列表 `马克`——标记 `nmod`-名义修饰符 `nsubj`-名义主题 `nummod`-数字修饰符 `obj`- - - - - -对象 `长方形的`-斜标称 `孤儿`——孤儿 `并列`——并列 `punct`(标点符号 `reparandum`-覆盖中断 `根`——根 `称呼的`——呼格 `xcomp`-开放从句补语如果缺少这些细节，则首先将语法依赖细节添加到`文档`使用`addDependencyDetails`函数。