主要内容

tokenDetails

令牌化文档数组中令牌的详细信息

描述

例子

tdetails= tokenDetails (文档中令牌的令牌详细信息表tokenizedDocument数组文档

例子

全部折叠

创建标记化的文档数组。

str = [...这是一个示例文档。它有两句话。”这份文件只有一句话和一个表情符号。:)”下面是另一个示例文档。: D”];文件= tokenizedDocument (str);

查看前几个令牌的令牌详细信息。

tdetails = tokenDetails(文件);头(tdetails)
ans =8×5表Token DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "is" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "."1 1 punctuation en“It”1 1 letters en“has”1 1 letters en

类型变量包含每个令牌的类型。查看文档中的表情。

idx = tdetails。类型= =“表情符号”;tdetails (idx:)
ans =2×5表令牌DocumentNumber LineNumber类型语言  _____ ______________ __________ ________ ________ ":)"2 1 1 emoticon en“:D”3 1 1 emoticon en

创建标记化的文档数组。

str = [...这是一个示例文档。它有两句话。”“这份文件只有一句话。”下面是另一个示例文档。它还有两句话。”];文件= tokenizedDocument (str);

在使用的文档中添加句子细节addSentenceDetails.该函数将句子编号添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1标点符号“It”1 2 1字母“有”1 2 1字母“en”

查看第三个文档的第二句话的标记细节。

idx = tdetails。DocumentNumber== 3 &...tdetails。SentenceNumber = = 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看前几个令牌的令牌详细信息。

tdetails = tokenDetails(文件);头(tdetails)
ans =8×5表令牌DocumentNumber LineNumber类型语言  ___________ ______________ __________ _______ ________ " 美丽的“1 1字母在“生物“1 1字母在“欲望“1 1字母en”增加“1 1字母en”从而“1 1字母在“美丽“1 1字母在“玫瑰“1 1字母在“可能”1字母

属性向文档中添加词性细节addPartOfSpeechDetails函数。该函数首先向文档中添加句子信息,然后向返回的表中添加词性标记tokenDetails.查看前几个令牌的更新令牌详细信息。

= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
ans =8×7表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言  ___________ ______________ ______________ __________ _______ ________ ______________ " 美丽的“1 1 1字母在形容词“生物“1 1 1字母在名词”欲望“1 1 1字母en名词”增加“1 1 1字母在名词”从而“1 1 1字母在副词“美丽”1 1 1字母en名词"rose" 1 1个字母en名词"might" 1 1个字母en助动词

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输出参数

全部折叠

令牌详细信息表。tdetails有以下变量:

的名字 描述
令牌 令牌文本,作为字符串标量返回。
DocumentNumber 令牌所属文档的索引,返回为正整数。
SentenceNumber 文档中令牌的句子数,返回为正整数。如果缺少这些细节,那么首先添加句子细节文档使用addSentenceDetails函数。
LineNumber 文档中令牌的行数,返回为正整数。
类型

令牌的类型,返回为以下类型之一:

  • “信”-只能包含字母的字符串

  • “数字”-只能是数字字符串

  • “标点符号”-只包含标点符号字符的字符串

  • “电子邮件地址”-检测到的电子邮件地址

  • “网址”-检测到的web地址

  • “标签”-检测到的标签(以“#”字符后面有字母)

  • 一提到他的-检测在提及(开始于“@”字符)

  • “表情符号”——发现表情符号

  • “emoji”——发现emoji

  • “其他”-不属于前面的类型,也不是自定义类型

如果缺少这些细节,则首先添加类型细节文档使用addTypeDetails函数。

语言

令牌的语言,返回为以下其中之一:

  • “en”- - - - - -英语

  • “ja”——日本

  • “德”——德国

  • “柯”——韩国

这些语言细节决定removeStopWordsaddPartOfSpeechDetailsnormalizeWordsaddSentenceDetails,addEntityDetails令牌上的函数。

如果缺少这些细节,那么首先添加语言细节文档使用addLanguageDetails函数。

有关“文本分析工具箱™”中语言支持的更多信息,请参见金宝app语言的注意事项

PartOfSpeech

词性标签的一部分,指定为来自下列类名之一的类别:

  • “形容词”——形容词

  • “adposition”——Adposition

  • “副词”——副词

  • “助动词”——助动词

  • “coord-conjunction”——并列连接词

  • “限定词”——决定因素

  • “感叹词”——感叹词

  • “名词”- - - - - -名词

  • “数字”——数字

  • “粒子”——粒子

  • “代词”——代词

  • “专有名词”(专有名词

  • “标点符号”(标点符号

  • “subord-conjunction”- - - - - -从属conjucntion

  • “象征”——象征

  • “动词”——动词

  • “其他”——其他

如果缺少这些细节,那么首先添加词性细节文档使用addPartOfSpeechDetails函数。

实体

实体标签,指定为下列之一:

  • “位置”——检测位置

  • “组织”——检测组织

  • “人”——检测人

  • “其他”-检测到的实体,不属于上述类别

  • “走眼”-没有检测到实体

如果缺少这些细节,那么首先添加实体细节文档使用addEntityDetails函数。

引理

引理的形式。如果这些细节缺失,则先引理细节文档使用addLemmaDetails函数。

兼容性的考虑

全部展开

R2018b中行为改变

介绍了R2018a