tokenDetails
标记化文档数组中标记的详细信息
描述
例子
查看文档的Token详细信息
创建一个标记化文档数组。
STR = [...“这是一个示例文档。有两句话。”“这份文件只有一句话和一个表情符号。:)”这是另一个文档示例。: D”];documents = tokenizedDocument(str);
查看前几个令牌的令牌细节。
tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber Type Language __________ ______________ __________ ___________ ________ "This" 1 1 letters en "是" 1 1 letters en "an" 1 1 letters en "example" 1 1 letters en "document" 1 1 letters en "。"11 1个标点符号en“It”11个字母en”有“11个字母en”
的类型
变量包含每个令牌的类型。查看文档中的表情符号。
Idx = tdetails。类型= =“表情符号”;tdetails (idx:)
ans =2×5表令牌DocumentNumber LineNumber类型语言 _____ ______________ __________ ________ ________ ":)"2 1个表情符号“:D”3 1个表情符号“
为文档添加句子细节
创建一个标记化文档数组。
STR = [...“这是一个示例文档。有两句话。”“这份文件只有一句话。”这是另一个文档示例。它还有两句话。”];documents = tokenizedDocument(str);
为文档添加句子细节addSentenceDetails
.该函数将语句号添加到返回的表中tokenDetails
.查看前几个令牌的更新令牌详细信息。
文档= addSentenceDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言 __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1个标点符号“It”1 2 1个字母“en”有“1 2 1个字母en”
查看第三个文档的第二句话的标记细节。
Idx = tdetails。DocumentNumber== 3 &...tdetails。SentenceNumber == 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言 ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号
为文档添加词性细节
加载示例数据。该文件sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,用空格分隔单词。从中提取文本sonnetsPreprocessed.txt
,以换行符将文本分割为文档,然后对文档进行标记。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData = split(str,换行符);documents = tokenizedDocument(textData);
查看前几个令牌的令牌细节。
tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber LineNumber Type Language ___________ ______________ __________ _______ ________ " fairrest " 1 1个字母en "creatures" 1 1个字母en "desire" 1 1个字母en "increase" 1 1个字母en "因此" 1 1个字母en " beauys " 1 1个字母en "rose" 1 1个字母en "might" 11 1个字母en
属性向文档添加词性细节addPartOfSpeechDetails
函数。这个函数首先向文档添加句子信息,然后将词性标记添加到返回的表中tokenDetails
.查看前几个令牌的更新令牌详细信息。
文档= addPartOfSpeechDetails(文档);tdetails = tokenDetails(文档);头(tdetails)
标记DocumentNumber SentenceNumber LineNumber类型语言parttofspeech ___________ ______________ ______________ __________ _______ ________ ______________“fairrest”1 1 1个字母形容词“creatures”1 1 1个字母名词“desire”1 1 1个字母名词“increase”1 1 1个字母名词“beauys”1 1 1个字母名词“rose”1 1 1个字母名词“might”1 1 1 1个字母助动词
输入参数
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文档,指定为tokenizedDocument
数组中。
输出参数
tdetails
-令牌详细信息表
表格
令牌详细信息表。tdetails
具有以下变量:
的名字 | 描述 |
---|---|
令牌 |
令牌文本,作为字符串标量返回。 |
DocumentNumber |
令牌所属的文档索引,作为正整数返回。 |
SentenceNumber |
文档中令牌的句数,以正整数返回。如果这些细节缺失,那么先添加句子细节文档 使用addSentenceDetails 函数。 |
LineNumber |
文档中令牌的行号,作为正整数返回。 |
类型 |
令牌的类型,作为以下类型之一返回:
如果缺少这些细节,则首先将类型细节添加到 |
语言 |
标记的语言,作为以下语言之一返回:
这些语言细节决定的行为 如果缺少这些细节,则首先将语言细节添加到 有关文本分析工具箱™中的语言支持的更多信息,请参见金宝app语言的注意事项. |
PartOfSpeech |
词性标签,作为以下标签之一返回:
如果缺少这些细节,则首先添加词性细节 |
实体 |
实体标记,指定为以下标记之一:
如果缺少这些细节,则首先将实体细节添加到 |
引理 |
引理的形式。如果缺少这些细节,则首先将引理细节添加到 |
头 |
语法依赖项头,指定为此标记修改的标记的索引。如果缺少这些细节,则首先将语法依赖细节添加到文档 使用addDependencyDetails 函数。 |
依赖 |
语法依赖项类型,指定为这些标记之一。 这里列出的依赖类型只是一个子集。有关依赖项类型(包括子类型)的完整列表,请参见[1].
如果缺少这些细节,则首先将语法依赖细节添加到 |
参考文献
版本历史
在R2018a中引入R2018b:tokenDetails
返回令牌类型emoji
对于表情符号
从R2018b开始,tokenizedDocument
检测表情符号和tokenDetails
函数用类型报告这些令牌“emoji”
.这使得分析包含表情符号的文本更加容易。
在R2018a,tokenDetails
报告具有类型的表情符号字符“其他”
.查找具有类型的令牌的索引“emoji”
或“其他”
,使用索引Idx = tdetails。类型= =“emoji”|tdetails。类型= =“其他”
,在那里tdetails
是一个标记详细信息的表。
Matlabコマンド
次のmatlabコマンドに対応するリンクがクリックされました。
コマンドをmatlabコマンドウィンドウに入力して実行してください。Webブラウザ,はMATLABコマンドをサポ,トしていません。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。