tokenizedDocument

用于文本分析的标记化文档数组

全部展开页面

描述

标记化文档是表示为单词集合的文档(也称为令牌）用于文本分析。

使用授权文件：

检测文本中的复杂符号，如网址、表情符号、表情符号和标签。
删除词语，如停止词语使用removeWords或removeStopWords职能。
执行字级的预处理任务，如词干提取或词源化normalizeWords函数。
分析单词和n-gram频率使用bagOfWords和bagOfNgrams对象。
使用该句子和言语部分addSentenceDetails和addPartOfSpeechDetails职能。
属性添加实体标记addEntityDetails函数。
查看有关令牌的详细信息tokenDetails函数。

该函数支持英语、日语、德语金宝app和韩语文本。学会如何使用tokenizedDocument对于其他语言，请参阅语言的注意事项．

创建

语法

文件= tokenizedDocument

文件= tokenizedDocument (str)

文件= tokenizedDocument (str、名称、值)

描述

文档= tokenizedDocument创建没有标记的标量标记化文档。

例子

文档= tokenizedDocument (str）标记字符串数组的元素，并返回标记化的文档数组。

例子

文档= tokenizedDocument (str，名称,值）使用一个或多个名称-值对参数指定其他选项。

输入参数

全部展开

`str`- - - - - -输入文本
字符串数组|特征向量|字符向量的单元格数组|字符串数组的单元格数组

输入文本，指定为字符串数组、字符向量、字符向量的单元格数组或字符串数组的单元格数组。

如果输入的文本还没有被分割成单词，那么str必须是字符串数组、字符向量、字符向量的单元格数组或字符串标量的单元格数组。

例子：["一个短文档的例子";"第二个短文档"]

例子：“单个文档的一个例子”

例子：{'一个短文档的例子';'第二个短文档'}

如果输入文本已经被分割成单词，则指定“TokenizeMethod”是“没有”．如果str包含单个文档，则它必须是字的字符串向量、字符向量的行单元格数组或包含字的字符串向量的单元格数组。如果str包含多个文档，则它必须是字符串数组的单元格数组。

例子：["一个"“例子”“文档”)

例子：{“一个”,“例子”,“文档”}

例子：{["a " "short" "document"的"an" "example" "}

例子：{(“一个”“例子”“”“”“短”“文档”);[“一”“二”“短”“文档”)}

数据类型:字符串|char|细胞

名称-值对的观点

指定可选的逗号分隔的对名称,值论点。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数name1，value1，...，namen，valuen．

例子：DetectPatterns,{“电子邮件地址”,“网址”}检测电子邮件地址和网址

`tokenizemethod.`- - - - - -方法来标记文档
`unicode的`|`'麦布'`|`mecabOptions`对象|`“没有”`

方法标记文档，指定为逗号分隔对，由“TokenizeMethod”以及以下其中之一:

unicode的-使用基于Unicode的规则标记输入文本^®标准附件# 29[1]还有重症监护室的标记器［2］．如果str是单元格数组，那么其中的元素呢str必须是字符串标量或字符向量。如果“语言”是“en”或“德”,然后unicode的是默认的。
'麦布'- 使用MECAB标记器授予日语和韩文文本［３］．如果“语言”是“ja”或“柯”,然后'麦布'是默认的。
mecabOptions使用指定的MeCab选项标记日语和韩语文本mecabOptions对象。
“没有”—不要标记输入文本。

`DetectPatterns`- - - - - -要检测的复杂标记的模式
`“所有”`(默认)|特征向量|字符串数组|字符向量的单元格数组

要检测的复杂标记的模式，指定为由逗号分隔的对组成“DetectPatterns”和“没有”，“所有”，或包含下列一个或多个内容的字符串或单元格数组。

“电子邮件地址”- 检测电子邮件地址。例如,治疗“user@domain.com”作为单个令牌。
“网址”—检测web地址。例如,治疗“//www.tatmou.com”作为单个令牌。
“标签”——检测标签。例如,治疗“#matlab”作为单个令牌。
一提到他的——检测at-mentions。例如,治疗“@MathWorks”作为单个令牌。
“表情符号”——检测表情符号。例如,治疗“:- d”作为单个令牌。

如果DetectPatterns是“没有”，则该函数不会检测任何复杂的令牌模式。如果DetectPatterns是“所有”，然后该函数检测所有列出的复杂令牌模式。

例子：“DetectPatterns”、“标签”

例子：DetectPatterns,{“电子邮件地址”,“网址”}

数据类型:char|字符串|细胞

`CustomTokens`- - - - - -要检测的自定义令牌
`＇'`(默认)|字符串数组|特征向量|字符向量的单元格数组|表格

自定义令牌检测，指定为逗号分隔对组成“CustomTokens”下面是其中之一。

包含自定义标记的字符向量的字符串数组、字符向量或单元格数组。
包含自定义令牌的表令牌对应的标记类型为列类型．

如果将自定义标记指定为字符串数组、字符向量或字符向量的单元格数组，则该函数指定标记类型“风俗”．若要指定自定义令牌类型，请使用表输入。要查看标记类型，请使用tokenDetails函数。

例子：“CustomTokens”,(“c++”“c#”]

数据类型:char|字符串|表格|细胞

`常用表达`- - - - - -定期表达来检测
`＇'`(默认)|字符串数组|特征向量|字符向量的单元格数组|表格

要检测的正则表达式，指定为逗号分隔的对组成“RegularExpressions”下面是其中之一。

包含正则表达式的字符向量的字符串数组、字符向量或单元格数组。
包含正则表达式的表，列名为图案和名为的列中的相应令牌类型类型．

如果将正则表达式指定为字符串数组、字符向量或字符向量的单元格数组，则该函数指定令牌类型“风俗”．若要指定自定义令牌类型，请使用表输入。要查看标记类型，请使用tokenDetails函数。

例子：“RegularExpressions”,“版本:\ d +”“牧师:\ d +”)

数据类型:char|字符串|表格|细胞

`TopLevelDomains`- - - - - -用于web地址检测的顶级域名
特征向量|字符串数组|字符向量的单元格数组

用于Web地址检测的顶级域，指定为逗号分隔对“TopLevelDomains”和字符向量，字符串阵列或字符向量阵列。默认情况下，该函数使用输出topLevelDomains．

此选项仅适用，如果“DetectPatterns”是“所有”或者包含“网址”．

例子：“TopLevelDomains”,(“com”“净”“org”]

数据类型:char|字符串|细胞

`语言`- - - - - -语言
`“en”`|`“ja”`|`“德”`|`“柯”`

语言，指定为逗号分隔的对，由“语言”下面是其中之一。

“en”——英语。该选项还设置的默认值“TokenizeMethod”来unicode的．
“ja”——日本。该选项还设置的默认值“TokenizeMethod”来'麦布'．
“德”——德国。该选项还设置的默认值“TokenizeMethod”来unicode的．
“柯”- 韩国人。该选项还设置的默认值“TokenizeMethod”来'麦布'．

如果没有指定值，则该函数使用小毒素语言函数。

此选项指定标记的语言细节。要查看标记的语言细节，请使用tokenDetails．这些语言细节决定removeStopWords，addPartOfSpeechDetails，normalizeWords，addSentenceDetails,addEntityDetails在令牌上的功能。

有关“文本分析工具箱™”中语言支持的更多信息，请参见金宝app语言的注意事项．

例子：“语言”、“ja”

属性

全部展开

`词汇表`- - - - - -文档中唯一的单词
字符串数组

文档中的唯一单词，指定为字符串数组。单词不会出现在任何特定的顺序中。

数据类型:字符串

对象的功能

全部展开

预处理

`侵蚀`	删除文本和文档中的标点符号
`removeStopWords`	从文档中删除停止词
`removeWords`	从文档或词袋模型中删除选定的词
`normalizeWords`	词干或词根化
`用语`	单词的正确拼写
`替换字词`	替换文档中的单词
`更换纸张`	在文档中替换n-g
`removeEmptyDocuments`	从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
`较低的`	将文档转换为小写
`上`	将文档转换为大写

令牌的细节

`tokenDetails`	令牌化文档数组中令牌的详细信息
`addSentenceDetails`	在文档中添加句子编号
`addPartOfSpeechDetails`	向文档添加语音部分标签
`addLanguageDetails`	向文档添加语言标识符
`addtypedetails.`	向文档添加令牌类型细节
`addLemmaDetails`	向文档添加标记的引理形式
`addEntityDetails`	向文档添加实体标记

出口

writeTextDocument 将文档写入文本文件

操纵和转换

`doclength`	文档阵列中的文档的长度
`上下文`	在文档中搜索上下文中出现的单词或n-gram
`joinWords`	通过连接单词将文档转换为字符串
`doc2cell`	将文档转换为字符串向量的单元格数组
`字符串`	将标量文档转换为字符串向量
`+`	附加文件
`代替`	替换文档中的子字符串
`docfun`	将功能应用于文档中的单词
`regexprep`	使用正则表达式替换文档单词中的文本

显示

wordcloud 从文本、词袋模型、词袋-n-grams模型或LDA模型创建词云图

例子

全部折叠

标记文本

打开生活的脚本

从字符串数组创建标记化文档。

str = [一个短句的例子第二个短句］

str =2 x1字符串“一句话”“第二句话”

文件= tokenizedDocument (str)

documents = 2x1 tokenizedDocument: 6个token:一个短句的例子4个token:第二个短句

检测复杂的令牌

打开生活的脚本

从字符串创建标记化文档str．默认情况下，该函数处理标签“#matlab”，图释“:- d”，以及网址“//www.tatmou.com/help”作为单一的令牌。

str =“学习如何在#MATLAB中分析文本!: - d看到//www.tatmou.com/help/”；文档= tokenizedDocument (str)

Document = tokenizeddocument：11令牌：了解如何分析#matlab中的文本！： - 查看//www.tatmou.com/help/

要仅检测作为复杂标记的标签，请指定“DetectPatterns”选项是“标签”只有。然后该函数对表情符号进行标记“:- d”网站地址“//www.tatmou.com/help”为多个令牌。

文档= tokenizedDocument (str,“DetectPatterns”，“标签”）

document = tokenizeddocument：24令牌：了解如何分析#matlab的文本！： -  D见HTTPS：/ / www。Mathworks。COM /帮助/

从文档中删除停止文字

打开生活的脚本

从使用的文档数组中删除停止词removeStopWords．的tokenizedDocument功能检测到文件是英文，所以removeStopWords删除英语停顿词。

文件= tokenizedDocument ([一个短句的例子第二个短句]);newDocuments = removeStopWords(文档)

newDocuments = 2x1 tokenizedDocument: 3 tokens:示例短句3 tokens:第二个短句

文档中的主干词

打开生活的脚本

使用波特词干符对文档数组中的单词进行词干。

文件= tokenizedDocument ([“措词强烈的词汇集”“另一个词集”]);newDocuments = normalizeWords(文档)

newDocuments = 2x1 tokenizedDocument: 6 tokens:一个strong word collection of word 4 tokens:另一个word collection

指定自定义令牌

打开生活的脚本

的tokenizedDocument函数在默认情况下拆分包含符号的单词和标记。例如，该函数将“c++”和“c#”拆分为多个标记。

str =“我对MATLAB、c++和c#很有经验。”；文件= tokenizedDocument (str)

我精通MATLAB, c++和c#。

属性指定自定义标记，以防止函数分割包含符号的标记“CustomTokens”选项。

文档=令人畏缩的document（str，“CustomTokens”, (“c++”“c#”]）

我精通MATLAB, c++和c#。

自定义令牌具有令牌类型“风俗”．查看令牌详细信息。列类型包含令牌类型。

tdetails = tokenDetails(文档)

Tdetails =11×5表令牌DocumentNumber LineNumber类型语言  _____________ ______________ __________ ___________ ________ " 我“1 1字母en”“1 1字母en”经历了“1 1字母en”“1 1字母在“MATLAB“1 1字母”,“1 1标点符号在“c++”1 1自定义”,“1 1标点en”和“1 1字母在“c#“1 1”定制en。”1 1标点符号

要指定您自己的令牌类型，请将自定义令牌作为表输入，其中令牌位于名为的列中令牌，以及名为类型．若要将自定义类型分配给不包含符号的令牌，请在表中也包含该令牌。例如，创建一个表，将“MATLAB”、“c++”和“c#”分配给“编程语言”令牌类型。

T =表;T.Token = [“matlab”“c++”“c#”]“;T.Type = [“编程语言”“编程语言”“编程语言”]'

T =3×2表令牌类型  ________ ______________________ " " MATLAB编程语言”“c++”“编程语言”“c#编程语言”

使用自定义令牌表标记文本并查看令牌详细信息。

文档=令人畏缩的document（str，“CustomTokens”，t）;tdetails = tokenDetails(文档)

Tdetails =11×5表令牌DocumentNumber LineNumber类型语言  _____________ ______________ __________ ____________________ ________ " 我“1 1字母en”“1 1字母en”经历了“1 1字母en”“1 1字母在“MATLAB“1 1编程语言”,“1 1标点符号在“c++”1 1编程语言”,“1 1标点en "和" 1 1字母en " c# " 1 1编程语言en "。1 1标点符号

使用正则表达式指定自定义令牌

打开生活的脚本

的tokenizedDocument函数在默认情况下拆分包含符号的单词和符号。例如，该函数拆分文本版本:2”为多个令牌。

str =“升级到ver:2 rev:3。”；文件= tokenizedDocument (str)

documents = tokenizedDocument: 9 token: upgrade to ver: 2 rev: 3。

要防止函数分割具有特定模式的令牌，请使用“RegularExpressions”选项。

指定正则表达式以检测表示版本和修订号的标记：显示后的数字字符串“ver：”和牧师:“分别。

文档=令人畏缩的document（str，“RegularExpressions”, (“版本:\ d +”“rev：\ d +”]）

documents = tokenizedDocument: 5 token: upgrade to ver:2 rev:3。

默认情况下，自定义令牌具有令牌类型“风俗”．查看令牌详细信息。列类型包含令牌类型。

tdetails = tokenDetails(文档)

Tdetails =5×5表令牌DocumentNumber LineNumber类型语言  __________ ______________ __________ ___________ ________ " “1 1字母en”升级到“1 1字母在“版本:2“1 1自定义在“牧师:3“1 1”自定义在。”1 1标点符号

要指定自己的令牌类型，请将正则表达式作为表输入，其中的正则表达式位于名为的列中图案和名为的列中的令牌类型类型．

T =表;T.Pattern = [“版本:\ d +”“rev：\ d +”]“;T.Type = [“版本”“修订”]'

T =2×2表模式类型  _________ __________ " 版本:\ d +”“版本”“牧师:\ d +”“修订”

使用自定义令牌表标记文本并查看令牌详细信息。

文档=令人畏缩的document（str，“RegularExpressions”，t）;tdetails = tokenDetails(文档)

Tdetails =5×5表令牌DocumentNumber LineNumber上类型语言__________ ______________ __________ ___________ ________ “升级” 1个+ 1字母恩 “以” 1个+ 1带字母 “VER：2” 1个1版本EN “REV：3” “” 1次1修订EN1 1标点符号

搜索文档查找单词

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗，单词之间用空格分隔。将文本从sonnetsPreprocessed.txt，将文本以换行符分割为文档，然后标记文档。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

搜索“生命”这个词。

台=上下文(文档,“生命”）;头(台)

ans =8×3表上下文文档词  ________________________________________________________ ________ ____ " consumst你自己单身生活啊你徒劳的“9 10”不是假冒行生活生活修复乘以铅笔“16 35 d假冒行生活生活修复次铅笔基金会的“16 36”天知道墓藏生活展示半部分编写“17 14”他眼睛长久的生命给你生命温柔的大使馆爱你生命四两独沉你的美虽有情人生命美将黑线剪掉活第二生命第二头在美之前

查看字符串数组中的出现次数。

资源描述。上下文

ans =23 x1字符串“consumst你自己单身生活啊你徒劳的”“不是假冒行生活生活修复次铅笔”“d假冒行生活生活修复次铅笔基金会”“天知道墓藏生活展示半部分编写b”“他眼睛长给生活你”“温柔的大使馆爱你生活四个二沉”“大美虽然爱好者生命美必黑线”“年代剪掉第二生活第二头之前美”“e排练让爱甚至生命衰变以免智慧世界lo”“圣保释应带走生命所行利益memor”“艺术你失去了渣滓生活猎物蠕虫身体死牛”“思想食品生活sweetseasond淋浴gro”“tten名字因此不朽的生命一旦走了w”“美沉默别人给的生活带来生活fa " ve生活带来墓墓生活生活公平眼睛诗人赞美d”“偷走自己的定期寿险你放心我的李”“菲你是向我的生活不再你的爱留在dep”“害怕坏的错误至少生活有更好的状态是“anst烦恼变化无常的心灵、生活你反抗谎言啊ha" " fame faster time wastes life thou preventst scythe cr" "ess harmful deeds better life provide public means pub" "ate hate away threw savd life saying " " many nymphs vowd chaste life keep came tripping maide"

日本标记文本

打开生活的脚本

标记日语文本使用tokenizedDocument．该功能自动检测日语文本。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)

文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6代币:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。

德国标记文本

打开生活的脚本

使用标记德语文本tokenizedDocument．该功能自动检测德语文本。

str = [“Guten Morgen。Wie Geht es dir？”“Heute Wird Ein Guter标签。”];文件= tokenizedDocument (str)

documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。你的名字叫什么?6代币:Heute wire ein guter Tag。

兼容性的考虑

全部展开

`tokenizedDocument`检测到韩国语言

行为在R2019b中改变

从R2019B开始，tokenizedDocument检测韩语并设置“语言”选择“柯”．属性的默认行为addSentenceDetails，addPartOfSpeechDetails，removeStopWords,normalizeWords函数用于韩语文档输入。这一变化允许该软件使用韩语特有的规则和单词列表进行分析。如果tokenizedDocument错误地检测文本为韩语，那么您可以通过设置手动指定语言“语言”名称-值对的tokenizedDocument．

在以前的版本中,tokenizedDocument通常将韩语文本识别为英语，并设置“语言”选择“en”．要重现此行为，请手动设置“语言”名称-值对的tokenizedDocument来“en”．

`tokenizedDocument`检测到表情符号

R2018b中行为改变

从R2018B开始，tokenizedDocument，默认检测表情符号。这种行为使分析包含表情符号的文本变得更容易。

在R2017b和R2018a中，tokenizedDocument将表情符号拆分为多个符号。为了复制这种行为，在tokenizedDocument,指定“DetectPatterns”选项是{'电子邮件地址'，'web-address'，'hashtag'，'提示'}．

`tokenDetails`返回令牌类型`emoji`emoji字符

R2018b中行为改变

从R2018B开始，tokenizedDocument检测表情符号字符和tokenDetails函数用类型报告这些令牌“emoji”．这使得分析包含表情符号的文本变得更容易。

在R2018a,tokenDetails报告与类型的表情符号字符“其他”．查找具有类型的标记的索引“emoji”或“其他”，使用索引idx = tdetails。类型== "emoji" | tdetails.Type == "other",在那里tdetails是令牌详细信息的表。

`tokenizedDocument`不分裂在斜杠和冒号字符之间的数字

R2018b中行为改变

从R2018B开始，tokenizedDocument当出现在两个数字之间时，不使用斜杠、反斜杠或冒号分隔。当标记包含日期和时间的文本时，这种行为会产生更好的结果。

在以前的版本中,tokenizedDocument在这些角色上分裂。要重现该行为，请在使用前手动标记文本或在斜杠、反斜杠和冒号字符周围插入空白字符tokenizedDocument．

参考

[1]Unicode文本分割．https://www.unicode.org/reports/tr29/

［2］边界分析．https://unicode-org.github.io/icu/userguide/boundaryanalysis

［３］MeCab:另一个词性和形态分析器．https://taku910.github.io/mecab/

介绍了R2017b

tokenizedDocument

描述

创建

语法

描述

输入参数

str- - - - - -输入文本字符串数组|特征向量|字符向量的单元格数组|字符串数组的单元格数组

tokenizemethod.- - - - - -方法来标记文档unicode的|'麦布'|mecabOptions对象|“没有”

DetectPatterns- - - - - -要检测的复杂标记的模式“所有”(默认)|特征向量|字符串数组|字符向量的单元格数组

CustomTokens- - - - - -要检测的自定义令牌＇'(默认)|字符串数组|特征向量|字符向量的单元格数组|表格

常用表达- - - - - -定期表达来检测＇'(默认)|字符串数组|特征向量|字符向量的单元格数组|表格

TopLevelDomains- - - - - -用于web地址检测的顶级域名特征向量|字符串数组|字符向量的单元格数组

语言- - - - - -语言“en”|“ja”|“德”|“柯”

属性

词汇表- - - - - -文档中唯一的单词字符串数组

对象的功能

预处理

令牌的细节

出口

操纵和转换

显示

例子

标记文本

检测复杂的令牌

从文档中删除停止文字

文档中的主干词

指定自定义令牌

使用正则表达式指定自定义令牌

搜索文档查找单词

日本标记文本

德国标记文本

更多关于

语言的注意事项

兼容性的考虑

tokenizedDocument检测到韩国语言

tokenizedDocument检测到表情符号

tokenDetails返回令牌类型emojiemoji字符

tokenizedDocument不分裂在斜杠和冒号字符之间的数字

参考

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`str`- - - - - -输入文本
字符串数组|特征向量|字符向量的单元格数组|字符串数组的单元格数组

`tokenizemethod.`- - - - - -方法来标记文档
`unicode的`|`'麦布'`|`mecabOptions`对象|`“没有”`

`DetectPatterns`- - - - - -要检测的复杂标记的模式
`“所有”`(默认)|特征向量|字符串数组|字符向量的单元格数组

`CustomTokens`- - - - - -要检测的自定义令牌
`＇'`(默认)|字符串数组|特征向量|字符向量的单元格数组|表格

`常用表达`- - - - - -定期表达来检测
`＇'`(默认)|字符串数组|特征向量|字符向量的单元格数组|表格

`TopLevelDomains`- - - - - -用于web地址检测的顶级域名
特征向量|字符串数组|字符向量的单元格数组

`语言`- - - - - -语言
`“en”`|`“ja”`|`“德”`|`“柯”`

`词汇表`- - - - - -文档中唯一的单词
字符串数组

`tokenizedDocument`检测到韩国语言

`tokenizedDocument`检测到表情符号

`tokenDetails`返回令牌类型`emoji`emoji字符

`tokenizedDocument`不分裂在斜杠和冒号字符之间的数字