主要内容

tokenDetails

标记化文档数组中标记的详细信息

描述

例子

tdetails= tokenDetails (文档控件中的令牌返回令牌详细信息的表tokenizedDocument数组文档

例子

全部折叠

创建一个标记化文档数组。

STR = [...“这是一个示例文档。有两句话。”“这份文件只有一句话和一个表情符号。:)”这是另一个文档示例。: D”];documents = tokenizedDocument(str);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)
ans =8×5表令牌DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "是" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "。"11 1个标点符号en“It”11个字母en”有“11个字母en”

类型变量包含每个令牌的类型。查看文档中的表情符号。

Idx = tdetails。类型= =“表情符号”;tdetails (idx:)
ans =2×5表令牌DocumentNumber LineNumber类型语言  _____ ______________ __________ ________ ________ ":)"2 1个表情符号“:D”3 1个表情符号“

创建一个标记化文档数组。

STR = [...“这是一个示例文档。有两句话。”“这份文件只有一句话。”这是另一个文档示例。它还有两句话。”];documents = tokenizedDocument(str);

为文档添加句子细节addSentenceDetails.该函数将语句号添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

文档= addSentenceDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1个标点符号“It”1 2 1个字母“en”有“1 2 1个字母en”

查看第三个文档的第二句话的标记细节。

Idx = tdetails。DocumentNumber== 3 &...tdetails。SentenceNumber == 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt,以换行符将文本分割为文档,然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);

查看前几个令牌的令牌细节。

tdetails = tokenDetails(文档);头(tdetails)
ans =8×5表令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ " fairrest " 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en "因此" 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 11 1个字母en

属性向文档添加词性细节addPartOfSpeechDetails函数。这个函数首先向文档添加句子信息,然后将词性标记添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

文档= addPartOfSpeechDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
ans =8×7表标记DocumentNumber SentenceNumber LineNumber类型语言parttofspeech ___________ ______________ ______________ __________ _______ ________ ______________“fairrest”1 1 1个字母形容词“creatures”1 1 1个字母名词“desire”1 1 1个字母名词“increase”1 1 1个字母名词“beauys”1 1 1个字母名词“rose”1 1 1个字母名词“might”1 1 1 1个字母助动词

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输出参数

全部折叠

令牌详细信息表。tdetails具有以下变量:

的名字 描述
令牌 令牌文本,作为字符串标量返回。
DocumentNumber 令牌所属的文档索引,作为正整数返回。
SentenceNumber 文档中令牌的句数,以正整数返回。如果这些细节缺失,那么先添加句子细节文档使用addSentenceDetails函数。
LineNumber 文档中令牌的行号,作为正整数返回。
类型

令牌的类型,作为下列之一返回:

  • “信”-只包含字母的字符串

  • “数字”-仅为数字字符串

  • “标点符号”-只包含标点符号和符号字符的字符串

  • “电子邮件地址”-检测到的电子邮件地址

  • “网址”-检测到的网址

  • “标签”-检测到的标签(以“#”字符后跟字母)

  • 一提到他的-检测到提及(以“@”字符)

  • “表情符号”-检测到的表情

  • “emoji”-检测表情符号

  • “其他”-不属于前面的类型,也不是自定义类型

如果缺少这些细节,则首先将类型细节添加到文档使用addTypeDetails函数。

语言

令牌的语言,作为下列之一返回:

  • “en”- - - - - -英语

  • “ja”——日本

  • “德”——德国

  • “柯”——韩国

这些语言细节决定的行为removeStopWordsaddPartOfSpeechDetailsnormalizeWordsaddSentenceDetails,addEntityDetails函数。

如果缺少这些细节,则首先将语言细节添加到文档使用addLanguageDetails函数。

有关文本分析工具箱™中的语言支持的更多信息,请参见金宝app语言的注意事项

PartOfSpeech

词性标记,指定为来自以下类名之一的分类:

  • “形容词”——形容词

  • “adposition”——Adposition

  • “副词”——副词

  • “助动词”-助动词

  • “coord-conjunction”-协调连接

  • “限定词”——决定因素

  • “感叹词”——感叹词

  • “名词”- - - - - -名词

  • “数字”——数字

  • “粒子”——粒子

  • “代词”——代词

  • “专有名词”-专有名词

  • “标点符号”(标点符号

  • “subord-conjunction”-从属连词

  • “象征”——象征

  • “动词”——动词

  • “其他”——其他

如果缺少这些细节,则首先添加词性细节文档使用addPartOfSpeechDetails函数。

实体

实体标记,指定为下列之一:

  • “位置”-检测位置

  • “组织”-被检测组织

  • “人”-被发现的人

  • “其他”-检测到的实体,不属于上述类别

  • “走眼”-未检测到实体

如果缺少这些细节,则首先将实体细节添加到文档使用addEntityDetails函数。

引理

引理的形式。如果这些细节缺失,那么首先引理细节来文档使用addLemmaDetails函数。

兼容性的考虑

全部展开

R2018b的行为发生了变化

在R2018a中引入