文档帮助中心文档
tokenDetails
emoji
令牌化文档数组中令牌的详细信息
tdetails = tokenDetails(文档)
例子
tdetails= tokenDetails (文档)中令牌的令牌详细信息表tokenizedDocument数组文档.
tdetails= tokenDetails (文档)
tdetails
文档
tokenizedDocument
全部折叠
创建标记化的文档数组。
str = [...这是一个示例文档。它有两句话。”这份文件只有一句话和一个表情符号。:)”下面是另一个示例文档。: D”];文件= tokenizedDocument (str);
查看前几个令牌的令牌详细信息。
tdetails = tokenDetails(文件);头(tdetails)
ans =8×5表Token DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "is" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "."1 1 punctuation en“It”1 1 letters en“has”1 1 letters en
的类型变量包含每个令牌的类型。查看文档中的表情。
类型
idx = tdetails。类型= =“表情符号”;tdetails (idx:)
ans =2×5表令牌DocumentNumber LineNumber类型语言 _____ ______________ __________ ________ ________ ":)"2 1 1 emoticon en“:D”3 1 1 emoticon en
str = [...这是一个示例文档。它有两句话。”“这份文件只有一句话。”下面是另一个示例文档。它还有两句话。”];文件= tokenizedDocument (str);
在使用的文档中添加句子细节addSentenceDetails.该函数将句子编号添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。
addSentenceDetails
= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言 __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1标点符号“It”1 2 1字母“有”1 2 1字母“en”
查看第三个文档的第二句话的标记细节。
idx = tdetails。DocumentNumber== 3 &...tdetails。SentenceNumber = = 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言 ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号
加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
ans =8×5表令牌DocumentNumber LineNumber类型语言 ___________ ______________ __________ _______ ________ " 美丽的“1 1字母在“生物“1 1字母在“欲望“1 1字母en”增加“1 1字母en”从而“1 1字母在“美丽“1 1字母在“玫瑰“1 1字母在“可能”1字母
属性向文档中添加词性细节addPartOfSpeechDetails函数。该函数首先向文档中添加句子信息,然后向返回的表中添加词性标记tokenDetails.查看前几个令牌的更新令牌详细信息。
addPartOfSpeechDetails
= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
ans =8×7表令牌DocumentNumber SentenceNumber LineNumber PartOfSpeech类型语言 ___________ ______________ ______________ __________ _______ ________ ______________ " 美丽的“1 1 1字母在形容词“生物“1 1 1字母在名词”欲望“1 1 1字母en名词”增加“1 1 1字母在名词”从而“1 1 1字母在副词“美丽”1 1 1字母en名词"rose" 1 1个字母en名词"might" 1 1个字母en助动词
输入文档,指定为tokenizedDocument数组中。
令牌详细信息表。tdetails有以下变量:
令牌
DocumentNumber
SentenceNumber
LineNumber
令牌的类型,返回为以下类型之一:
“信”-只能包含字母的字符串
“信”
“数字”-只能是数字字符串
“数字”
“标点符号”-只包含标点符号字符的字符串
“标点符号”
“电子邮件地址”-检测到的电子邮件地址
“电子邮件地址”
“网址”-检测到的web地址
“网址”
“标签”-检测到的标签(以“#”字符后面有字母)
“标签”
“#”
一提到他的-检测在提及(开始于“@”字符)
一提到他的
“@”
“表情符号”——发现表情符号
“表情符号”
“emoji”——发现emoji
“emoji”
“其他”-不属于前面的类型,也不是自定义类型
“其他”
如果缺少这些细节,则首先添加类型细节文档使用addTypeDetails函数。
addTypeDetails
语言
令牌的语言,返回为以下其中之一:
“en”- - - - - -英语
“en”
“ja”——日本
“ja”
“德”——德国
“德”
“柯”——韩国
“柯”
这些语言细节决定removeStopWords,addPartOfSpeechDetails,normalizeWords,addSentenceDetails,addEntityDetails令牌上的函数。
removeStopWords
normalizeWords
addEntityDetails
如果缺少这些细节,那么首先添加语言细节文档使用addLanguageDetails函数。
addLanguageDetails
有关“文本分析工具箱™”中语言支持的更多信息,请参见金宝app语言的注意事项.
PartOfSpeech
词性标签的一部分,指定为来自下列类名之一的类别:
“形容词”——形容词
“形容词”
“adposition”——Adposition
“adposition”
“副词”——副词
“副词”
“助动词”——助动词
“助动词”
“coord-conjunction”——并列连接词
“coord-conjunction”
“限定词”——决定因素
“限定词”
“感叹词”——感叹词
“感叹词”
“名词”- - - - - -名词
“名词”
“数字”——数字
“粒子”——粒子
“粒子”
“代词”——代词
“代词”
“专有名词”(专有名词
“专有名词”
“标点符号”(标点符号
“subord-conjunction”- - - - - -从属conjucntion
“subord-conjunction”
“象征”——象征
“象征”
“动词”——动词
“动词”
“其他”——其他
如果缺少这些细节,那么首先添加词性细节文档使用addPartOfSpeechDetails函数。
实体
实体标签,指定为下列之一:
“位置”——检测位置
“位置”
“组织”——检测组织
“组织”
“人”——检测人
“人”
“其他”-检测到的实体,不属于上述类别
“走眼”-没有检测到实体
“走眼”
如果缺少这些细节,那么首先添加实体细节文档使用addEntityDetails函数。
引理
引理的形式。如果这些细节缺失,则先引理细节文档使用addLemmaDetails函数。
addLemmaDetails
全部展开
R2018b中行为改变
从R2018b开始,tokenizedDocument检测表情符号字符和tokenDetails函数使用类型报告这些标记“emoji”.这使得分析包含表情符号的文本变得更容易。
在R2018a,tokenDetails报告与类型的表情符号字符“其他”.查找具有类型的标记的索引“emoji”或“其他”,使用索引idx = tdetails。类型= =“emoji”|tdetails。类型= =“其他”,在那里tdetails是令牌详细信息的表。
idx = tdetails。类型= =“emoji”|tdetails。类型= =“其他”
addEntityDetails|addLanguageDetails|addLemmaDetails|addPartOfSpeechDetails|addSentenceDetails|addTypeDetails|normalizeWords|tokenizedDocument
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系