tokenDetails

标记化文档数组中标记的详细信息

折叠所有页面

语法

tdetails = tokenDetails(文档)

描述

例子

tdetails= tokenDetails (文档）控件中的令牌返回令牌详细信息的表tokenizedDocument数组文档．

例子

全部折叠

查看文档的Token详细信息

打开实时脚本

创建一个标记化文档数组。

STR = [.．.“这是一个示例文档。有两句话。”“这份文件只有一句话和一个表情符号。:)”这是另一个文档示例。: D”];documents = tokenizedDocument(str);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)

ans =8×5表令牌DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "是" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "。"11 1个标点符号en“It”11个字母en”有“11个字母en”

的类型变量包含每个令牌的类型。查看文档中的表情符号。

Idx = tdetails。类型= =“表情符号”；tdetails (idx:)

ans =2×5表令牌DocumentNumber LineNumber类型语言  _____ ______________ __________ ________ ________ ":)"2 1个表情符号“:D”3 1个表情符号“

为文档添加句子细节

打开实时脚本

创建一个标记化文档数组。

STR = [.．.“这是一个示例文档。有两句话。”“这份文件只有一句话。”这是另一个文档示例。它还有两句话。”];documents = tokenizedDocument(str);

为文档添加句子细节addSentenceDetails．该函数将语句号添加到返回的表中tokenDetails．查看前几个令牌的更新令牌详细信息。

文档= addSentenceDetails(文档);tdetails = tokenDetails(文档);头(tdetails)

ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1个标点符号“It”1 2 1个字母“en”有“1 2 1个字母en”

查看第三个文档的第二句话的标记细节。

Idx = tdetails。DocumentNumber== 3 &.．.tdetails。SentenceNumber == 2;tdetails (idx:)

ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

为文档添加词性细节

打开实时脚本

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，用空格分隔单词。从中提取文本sonnetsPreprocessed.txt，以换行符将文本分割为文档，然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)

ans =8×5表令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ " fairrest " 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en "因此" 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 11 1个字母en

属性向文档添加词性细节addPartOfSpeechDetails函数。这个函数首先向文档添加句子信息，然后将词性标记添加到返回的表中tokenDetails．查看前几个令牌的更新令牌详细信息。

文档= addPartOfSpeechDetails(文档);tdetails = tokenDetails(文档);头(tdetails)

ans =8×7表标记DocumentNumber SentenceNumber LineNumber类型语言parttofspeech ___________ ______________ ______________ __________ _______ ________ ______________“fairrest”1 1 1个字母形容词“creatures”1 1 1个字母名词“desire”1 1 1个字母名词“increase”1 1 1个字母名词“beauys”1 1 1个字母名词“rose”1 1 1个字母名词“might”1 1 1 1个字母助动词

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

输出参数

全部折叠

`tdetails`-令牌详细信息表
表格

令牌详细信息表。tdetails具有以下变量:

的名字	描述
`令牌`	令牌文本，作为字符串标量返回。
`DocumentNumber`	令牌所属的文档索引，作为正整数返回。
`SentenceNumber`	文档中令牌的句数，以正整数返回。如果这些细节缺失，那么先添加句子细节`文档`使用`addSentenceDetails`函数。
`LineNumber`	文档中令牌的行号，作为正整数返回。
`类型`	令牌的类型，作为下列之一返回: `“信”`-只包含字母的字符串 `“数字”`-仅为数字字符串 `“标点符号”`-只包含标点符号和符号字符的字符串 `“电子邮件地址”`-检测到的电子邮件地址 `“网址”`-检测到的网址 `“标签”`-检测到的标签(以`“#”`字符后跟字母) `一提到他的`-检测到提及(以`“@”`字符) `“表情符号”`-检测到的表情 `“emoji”`-检测表情符号 `“其他”`-不属于前面的类型，也不是自定义类型如果缺少这些细节，则首先将类型细节添加到`文档`使用`addTypeDetails`函数。
`语言`	令牌的语言，作为下列之一返回: `“en”`- - - - - -英语 `“ja”`——日本 `“德”`——德国 `“柯”`——韩国这些语言细节决定的行为`removeStopWords`，`addPartOfSpeechDetails`，`normalizeWords`，`addSentenceDetails`,`addEntityDetails`函数。如果缺少这些细节，则首先将语言细节添加到`文档`使用`addLanguageDetails`函数。有关文本分析工具箱™中的语言支持的更多信息，请参见金宝app语言的注意事项．
`PartOfSpeech`	词性标记，指定为来自以下类名之一的分类: `“形容词”`——形容词 `“adposition”`——Adposition `“副词”`——副词 `“助动词”`-助动词 `“coord-conjunction”`-协调连接 `“限定词”`——决定因素 `“感叹词”`——感叹词 `“名词”`- - - - - -名词 `“数字”`——数字 `“粒子”`——粒子 `“代词”`——代词 `“专有名词”`-专有名词 `“标点符号”`(标点符号 `“subord-conjunction”`-从属连词 `“象征”`——象征 `“动词”`——动词 `“其他”`——其他如果缺少这些细节，则首先添加词性细节`文档`使用`addPartOfSpeechDetails`函数。
`实体`	实体标记，指定为下列之一: `“位置”`-检测位置 `“组织”`-被检测组织 `“人”`-被发现的人 `“其他”`-检测到的实体，不属于上述类别 `“走眼”`-未检测到实体如果缺少这些细节，则首先将实体细节添加到`文档`使用`addEntityDetails`函数。
`引理`	引理的形式。如果这些细节缺失，那么首先引理细节来`文档`使用`addLemmaDetails`函数。

兼容性的考虑

全部展开

`tokenDetails`返回令牌类型`emoji`对于表情符号

R2018b的行为发生了变化

从R2018b开始，tokenizedDocument检测表情符号和tokenDetails函数用类型报告这些令牌“emoji”．这使得分析包含表情符号的文本更加容易。

在R2018a,tokenDetails报告具有类型的表情符号字符“其他”．查找具有类型的令牌的索引“emoji”或“其他”，使用索引Idx = tdetails。类型= =“emoji”|tdetails。类型= =“其他”,在那里tdetails是一个标记详细信息的表。

另请参阅

主题

在R2018a中引入

tokenDetails

语法

描述

例子

查看文档的Token详细信息

为文档添加句子细节

为文档添加词性细节

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输出参数

`tdetails`-令牌详细信息表
表格

兼容性的考虑

`tokenDetails`返回令牌类型`emoji`对于表情符号

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB中的文本分析

tokenDetails

语法

描述

例子

查看文档的Token详细信息

为文档添加句子细节

为文档添加词性细节

输入参数

文档- - - - - -输入文档tokenizedDocument数组

输出参数

tdetails-令牌详细信息表表格

兼容性的考虑

tokenDetails返回令牌类型emoji对于表情符号

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB中的文本分析

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`tdetails`-令牌详细信息表
表格

`tokenDetails`返回令牌类型`emoji`对于表情符号