tokenDetails

令牌化文档数组中令牌的详细信息

折叠所有页面

语法

tdetails = tokenDetails(文档)

描述

例子

tdetails= tokenDetails (文档）中令牌的令牌详细信息表tokenizedDocument数组文档．

例子

全部折叠

查看文档的令牌细节

打开生活的脚本

创建标记化的文档数组。

str = [．..这是一个示例文档。它有两句话。”这份文件只有一句话和一个表情符号。:)”下面是另一个示例文档。: D”];文件= tokenizedDocument (str);

查看前几个令牌的令牌详细信息。

tdetails = tokenDetails(文件);头(tdetails)

ans =8×5表Token DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "is" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "."1 1 punctuation en“It”1 1 letters en“has”1 1 letters en

的类型变量包含每个令牌的类型。查看文档中的表情。

idx = tdetails。类型= =“表情符号”；tdetails (idx:)

ans =2×5表令牌DocumentNumber LineNumber类型语言  _____ ______________ __________ ________ ________ ":)"2 1 1 emoticon en“:D”3 1 1 emoticon en

在文档中添加句子细节

打开生活的脚本

创建标记化的文档数组。

str = [．..这是一个示例文档。它有两句话。”“这份文件只有一句话。”下面是另一个示例文档。它还有两句话。”];文件= tokenizedDocument (str);

在使用的文档中添加句子细节addSentenceDetails．该函数将句子编号添加到返回的表中tokenDetails．查看前几个令牌的更新令牌详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)

ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1标点符号“It”1 2 1字母“有”1 2 1字母“en”

查看第三个文档的第二句话的标记细节。

idx = tdetails。DocumentNumber== 3 &．..tdetails。SentenceNumber = = 2;tdetails (idx:)

ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

向文档添加词性细节

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗，单词之间用空格分隔。将文本从sonnetsPreprocessed.txt，将文本以换行符分割为文档，然后标记文档。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看前几个令牌的令牌详细信息。

tdetails = tokenDetails(文件);头(tdetails)

ans =8×5表令牌DocumentNumber LineNumber类型语言  ___________ ______________ __________ _______ ________ " 美丽的“1 1字母在“生物“1 1字母在“欲望“1 1字母en”增加“1 1字母en”从而“1 1字母在“美丽“1 1字母在“玫瑰“1 1字母在“可能”1字母

属性向文档中添加词性细节addPartOfSpeechDetails函数。该函数首先向文档中添加句子信息，然后向返回的表中添加词性标记tokenDetails．查看前几个令牌的更新令牌详细信息。

= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)

ans =8×7表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言  ___________ ______________ ______________ __________ _______ ________ ______________ " 美丽的“1 1 1字母在形容词“生物“1 1 1字母在名词”欲望“1 1 1字母en名词”增加“1 1 1字母在名词”从而“1 1 1字母在副词“美丽”1 1 1字母en名词"rose" 1 1个字母en名词"might" 1 1个字母en助动词

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

输出参数

全部折叠

`tdetails`-令牌详细信息表
表格

令牌详细信息表。tdetails有以下变量:

的名字	描述
`令牌`	令牌文本，作为字符串标量返回。
`DocumentNumber`	令牌所属文档的索引，返回为正整数。
`SentenceNumber`	文档中令牌的句子数，返回为正整数。如果缺少这些细节，那么首先添加句子细节`文档`使用`addSentenceDetails`函数。
`LineNumber`	文档中令牌的行数，返回为正整数。
`类型`	令牌的类型，返回为以下类型之一: `“信”`-只能包含字母的字符串 `“数字”`-只能是数字字符串 `“标点符号”`-只包含标点符号字符的字符串 `“电子邮件地址”`-检测到的电子邮件地址 `“网址”`-检测到的web地址 `“标签”`-检测到的标签(以`“#”`字符后面有字母) `一提到他的`-检测在提及(开始于`“@”`字符) `“表情符号”`——发现表情符号 `“emoji”`——发现emoji `“其他”`-不属于前面的类型，也不是自定义类型如果缺少这些细节，则首先添加类型细节`文档`使用`addTypeDetails`函数。
`语言`	令牌的语言，返回为以下其中之一: `“en”`- - - - - -英语 `“ja”`——日本 `“德”`——德国 `“柯”`——韩国这些语言细节决定`removeStopWords`，`addPartOfSpeechDetails`，`normalizeWords`，`addSentenceDetails`,`addEntityDetails`令牌上的函数。如果缺少这些细节，那么首先添加语言细节`文档`使用`addLanguageDetails`函数。有关“文本分析工具箱™”中语言支持的更多信息，请参见金宝app语言的注意事项．
`PartOfSpeech`	词性标签的一部分，指定为来自下列类名之一的类别: `“形容词”`——形容词 `“adposition”`——Adposition `“副词”`——副词 `“助动词”`——助动词 `“coord-conjunction”`——并列连接词 `“限定词”`——决定因素 `“感叹词”`——感叹词 `“名词”`- - - - - -名词 `“数字”`——数字 `“粒子”`——粒子 `“代词”`——代词 `“专有名词”`(专有名词 `“标点符号”`(标点符号 `“subord-conjunction”`- - - - - -从属conjucntion `“象征”`——象征 `“动词”`——动词 `“其他”`——其他如果缺少这些细节，那么首先添加词性细节`文档`使用`addPartOfSpeechDetails`函数。
`实体`	实体标签，指定为下列之一: `“位置”`——检测位置 `“组织”`——检测组织 `“人”`——检测人 `“其他”`-检测到的实体，不属于上述类别 `“走眼”`-没有检测到实体如果缺少这些细节，那么首先添加实体细节`文档`使用`addEntityDetails`函数。
`引理`	引理的形式。如果这些细节缺失，则先引理细节`文档`使用`addLemmaDetails`函数。

兼容性的考虑

全部展开

`tokenDetails`返回令牌类型`emoji`emoji字符

R2018b中行为改变

从R2018b开始,tokenizedDocument检测表情符号字符和tokenDetails函数使用类型报告这些标记“emoji”．这使得分析包含表情符号的文本变得更容易。

在R2018a,tokenDetails报告与类型的表情符号字符“其他”．查找具有类型的标记的索引“emoji”或“其他”，使用索引idx = tdetails。类型= =“emoji”|tdetails。类型= =“其他”,在那里tdetails是令牌详细信息的表。

另请参阅

主题

介绍了R2018a

tokenDetails

语法

描述

例子

查看文档的令牌细节

在文档中添加句子细节

向文档添加词性细节

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输出参数

`tdetails`-令牌详细信息表
表格

兼容性的考虑

`tokenDetails`返回令牌类型`emoji`emoji字符

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

tokenDetails

语法

描述

例子

查看文档的令牌细节

在文档中添加句子细节

向文档添加词性细节

输入参数

文档- - - - - -输入文档tokenizedDocument数组

输出参数

tdetails-令牌详细信息表表格

兼容性的考虑

tokenDetails返回令牌类型emojiemoji字符

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`tdetails`-令牌详细信息表
表格

`tokenDetails`返回令牌类型`emoji`emoji字符