tokenizedDocument

数组标记化的文档进行文本分析

扩展所有的页面

描述

一个标记化的文档是一个文档表示为一个单词(也称为集合令牌),这是用于文本分析。

使用标记化的文档:

检测复杂的令牌在文本,如网址、表情符号,emoji和标签。
删除词汇如停止使用removeWords或removeStopWords功能。
执行预处理等任务也能进行阻止或词元化使用normalizeWords函数。
分析词和语法使用频率bagOfWords和bagOfNgrams对象。
添加句子和词性使用细节addSentenceDetails和addPartOfSpeechDetails功能。
添加实体标签使用addEntityDetails函数。
添加语法使用依赖项的细节addDependencyDetails函数。
视图的细节令牌使用tokenDetails函数。

函数支持英语、日语、德语,金宝app和韩国的文本。学习如何使用tokenizedDocument为其他语言,明白了语言的注意事项。

创建

语法

文件= tokenizedDocument

文件= tokenizedDocument (str)

文件= tokenizedDocument (str、名称、值)

描述

文档= tokenizedDocument创建一个标量标记化的文档没有令牌。

例子

文档= tokenizedDocument (str)将一个字符串数组的元素,并返回一个数组标记化的文档。

例子

文档= tokenizedDocument (str,名称,值)使用一个或多个指定附加选项名称-值对参数。

输入参数

全部展开

`str`- - - - - -输入文本
字符串数组|特征向量|单元阵列的特征向量|单元阵列的字符串数组

输入文本,指定为字符串数组,特征向量,单元阵列的特征向量,或细胞字符串数组的数组。

如果输入的文本还没有分裂成的话,那么str必须是一个字符串数组,特征向量,单元阵列特征向量,或一个细胞一系列字符串标量。

例子:["短文档的一个例子”;“第二个短文件”)

例子:一个文档的一个例子

例子:{一个简短的文档的一个例子,“第二个短文档”}

如果输入文本已经分裂成单词,然后指定“TokenizeMethod”是“没有”。如果str包含一个文档,那么它必须是一个字符串向量的话,行单元阵列特征向量,或一个细胞包含一个字符串数组向量的单词。如果str包含多个文件,那么它必须是一个字符串数组的单元阵列。

例子:["一个"“例子”“文档”)

例子:{“一个”,“例子”,“文档”}

例子:{(“一个”“例子”“”“”“短”“文档”)}

例子:{(“一个”“例子”“”“”“短”“文档”);[“一”“二”“短”“文档”)}

数据类型:字符串|字符|细胞

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:DetectPatterns,{“电子邮件地址”,“网址”}检测到电子邮件地址和网址

`TokenizeMethod`- - - - - -方法标记文件
`unicode的`|`“mecab”`|`mecabOptions`对象|`“没有”`

方法标记文件,指定为逗号分隔组成的“TokenizeMethod”和下列之一:

unicode的基于Unicode -标记输入文本使用规则^®标准附件# 29[1]和ICU记号赋予器[2]。如果str是一个单元阵列,那么的元素str必须是字符串标量或特征向量。如果“语言”是“en”或“德”,然后unicode的是默认的。
“mecab”——日本和韩国标记文本使用MeCab记号赋予器[3]。如果“语言”是“ja”或“柯”,然后“mecab”是默认的。
mecabOptions对象——日本和韩国标记文本使用MeCab选项指定一个mecabOptions对象。
“没有”——不标记输入文本。

`DetectPatterns`- - - - - -复杂的令牌来检测模式
`“所有”`(默认)|特征向量|字符串数组|单元阵列的特征向量

复杂的令牌来检测模式,指定为逗号分隔组成的“DetectPatterns”和“没有”,“所有”,或一个字符串包含下列一个或多个单元阵列。

“电子邮件地址”——检测电子邮件地址。例如,治疗“user@domain.com”作为一个令牌。
“网址”——检测网络地址。例如,治疗“//www.tatmou.com”作为一个令牌。
“标签”——检测标签。例如,治疗“# MATLAB”作为一个令牌。
一提到他的——检测at-mentions。例如,治疗“@MathWorks”作为一个令牌。
“表情符号”——检测表情符号。例如,治疗“:- d”作为一个令牌。

如果DetectPatterns是“没有”,那么函数不检测任何复杂的标记模式。如果DetectPatterns是“所有”,那么函数检测所有复杂的令牌上市模式。

例子:“DetectPatterns”、“标签”

例子:DetectPatterns,{“电子邮件地址”,“网址”}

数据类型:字符|字符串|细胞

`CustomTokens`- - - - - -自定义令牌来检测
`”`(默认)|字符串数组|特征向量|单元阵列的特征向量|表

自定义令牌来检测,指定为逗号分隔两人组成的“CustomTokens”和一个以下。

一个字符串数组,特征向量,或单元阵列特征向量包含自定义标记。
这个表包含自定义标记列命名令牌和相应的令牌类型列命名类型。

如果您指定自定义令牌作为字符串数组,特征向量,或单元阵列的特征向量,然后分配令牌类型的函数“自定义”。指定一个自定义令牌类型,使用表格输入。把令牌类型使用tokenDetails函数。

例子:“CustomTokens”, (“c++”“c#”]

数据类型:字符|字符串|表|细胞

`RegularExpressions`- - - - - -正则表达式检测
`”`(默认)|字符串数组|特征向量|单元阵列的特征向量|表

正则表达式检测,指定为逗号分隔组成的“RegularExpressions”和一个以下。

一个字符串数组,特征向量,或单元阵列特征向量包含正则表达式。
这个表包含正则表达式列命名模式和相应的列中的令牌类型命名类型。

如果你指定正则表达式作为一个字符串数组,特征向量,或单元阵列的特征向量,然后分配令牌类型的函数“自定义”。指定一个自定义令牌类型,使用表格输入。把令牌类型使用tokenDetails函数。

例子:“RegularExpressions”,“版本:\ d +”“牧师:\ d +”)

数据类型:字符|字符串|表|细胞

`TopLevelDomains`- - - - - -顶级域名用于web地址检测
特征向量|字符串数组|单元阵列的特征向量

顶级域名用于web地址检测、指定为逗号分隔组成的“TopLevelDomains”一个特征向量,特征向量的字符串数组,数组或单元。默认情况下,该函数使用的输出topLevelDomains。

此选项仅适用于如果“DetectPatterns”是“所有”或者包含“网址”。

例子:“TopLevelDomains”, (“com”“净”“org”]

数据类型:字符|字符串|细胞

`语言`- - - - - -语言
`“en”`|`“ja”`|`“德”`|`“柯”`

语言,指定为逗号分隔组成的“语言”和一个以下。

“en”——英语。这个选项也设置的默认值“TokenizeMethod”来unicode的。
“ja”——日本。这个选项也设置的默认值“TokenizeMethod”来“mecab”。
“德”——德国。这个选项也设置的默认值“TokenizeMethod”来unicode的。
“柯”——韩国人。这个选项也设置的默认值“TokenizeMethod”来“mecab”。

如果你不指定一个值,那么该函数检测输入文本的语言使用corpusLanguage函数。

此选项指定了令牌的语言细节。把语言的细节令牌,使用tokenDetails。这些语言细节决定的行为removeStopWords,addPartOfSpeechDetails,normalizeWords,addSentenceDetails,addEntityDetails功能上的令牌。

关于语言支持的更多信息以文本分析工具箱™,明白了金宝app语言的注意事项。

例子:“语言”、“ja”

属性

全部展开

`词汇表`- - - - - -独特的文字文件中
字符串数组

独特的文字文件中,指定为一个字符串数组。这个词没有出现在任何特定的顺序。

数据类型:字符串

对象的功能

全部展开

预处理

`erasePunctuation`	从文本和文档删除标点符号
`removeStopWords`	从文档删除停用词
`removeWords`	删除选中的文字从文档或bag-of-words模型
`normalizeWords`	茎或lemmatize单词
`用语`	正确的拼写单词
`replaceWords`	替代词在文档中
`replaceNgrams`	在文档中替换字格
`removeEmptyDocuments`	删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型
`较低的`	将文档转换成小写
`上`	将文档转换成大写

令牌的细节

`tokenDetails`	标记化的文档中标记数组的细节
`addSentenceDetails`	句子数字添加到文档
`addPartOfSpeechDetails`	词性标记添加到文档
`addLanguageDetails`	语言标识符添加到文档
`addTypeDetails`	令牌类型的细节添加到文档
`addLemmaDetails`	引理形式的标记添加到文档
`addEntityDetails`	实体标记添加到文档
`addDependencyDetails`	语法依赖细节添加到文档

出口

writeTextDocument 写文档文本文件

操作和转换

`doclength`	文档在文档数组的长度
`上下文`	文档搜索单词或语法出现在上下文
`包含`	检查模式文档的子串
`containsWords`	检查单词是否文件的成员
`containsNgrams`	检查语法是否文件的成员
`splitSentences`	文本分割成句子
`joinWords`	通过加入的话将文档转换为字符串
`doc2cell`	将文档转换成字符串向量的单元阵列
`字符串`	标量文档转换为字符串向量
`+`	附加文件
`取代`	替换文件中的子字符串
`docfun`	功能适用于词汇的文档
`regexprep`	使用正则表达式替换文本单词的文档

显示

`wordcloud`	创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型
`sentenceChart`	句子的语法解析树的依赖

例子

全部折叠

标记文本

打开生活的脚本

从一个字符串数组创建标记化的文档。

str = [“一个短句”“第二个短句”]

str =2 x1字符串“一个短句”“第二个短句”

文件= tokenizedDocument (str)

文件= 2 x1 tokenizedDocument: 6标记:一个短句4令牌:第二个短句

检测复杂的令牌

打开生活的脚本

从字符串创建一个标记化的文档str。默认情况下,函数将标签“# MATLAB”的表情符号“:- d”和网络地址“//www.tatmou.com/help”作为单一的令牌。

str =“学习如何分析文本# MATLAB !:- d看到//www.tatmou.com/help/”;文档= tokenizedDocument (str)

文档= tokenizedDocument: 11令牌:学习如何分析文本# MATLAB !:- d参见//www.tatmou.com/help/

只检测标签是复杂的令牌,指定“DetectPatterns”选项是“标签”只有。函数符表情符号“:- d”和网络地址“//www.tatmou.com/help”为多个令牌。

文档= tokenizedDocument (str,“DetectPatterns”,“标签”)

文档= tokenizedDocument: 24令牌:学习如何分析文本# MATLAB !:- D看到https: / / www。mathworks。com /帮助/

从文档删除停用词

打开生活的脚本

移除阻止单词的文档使用数组removeStopWords。的tokenizedDocument功能检测到文档都是英文的,所以removeStopWords删除英语停止的话。

文件= tokenizedDocument ([“一个短句”“第二个短句”]);newDocuments = removeStopWords(文档)

newDocuments = 2 x1 tokenizedDocument: 3令牌:例子短句3令牌:第二个短句

干细胞在文档

打开生活的脚本

茎单词在一个文档数组中使用波特抽梗机。

文件= tokenizedDocument ([“措辞强硬的词”“另一个集合的单词”]);newDocuments = normalizeWords(文档)

newDocuments = 2 x1 tokenizedDocument: 6令牌:strongli词的收集4令牌:程序收集的词

指定自定义令牌

打开生活的脚本

的tokenizedDocument函数,默认情况下,将单词和令牌包含符号。例如,函数将“c++”和“c#”为多个令牌。

str =“我经历了在MATLAB c++, c#和。”;文件= tokenizedDocument (str)

文件= tokenizedDocument: 14标记:我经历了在MATLAB c++, c#。

防止函数分割包含符号的令牌,指定自定义令牌使用“CustomTokens”选择。

文件= tokenizedDocument (str,“CustomTokens”,(“c++”“c#”])

文件= tokenizedDocument: 11令牌:我经历了在MATLAB c++, c#。

自定义令牌有令牌类型“自定义”。查看标记的细节。列类型包含令牌类型。

tdetails = tokenDetails(文档)

tdetails =11×5表令牌DocumentNumber LineNumber类型语言__________ _________________ * * *……——“我”字母在“我”1 1字母在“经历”1 1字母en”在“1 1字母在“MATLAB”字母en”、“1 1标点符号在“c++”定制en”、“1 1标点en”和“1 1字母在“c#”1 1自定义在“。”1 1 punctuation en

指定自己的令牌类型,输入自定义标记与标记列的表命名令牌,在一列指定类型类型。指定一个自定义类型的令牌不包括符号,包括表中。例如,创建一个表,将分配“MATLAB”、“c++”,和“c#”“编程语言”令牌类型。

T =表;T。令牌= [“MATLAB”“c++”“c#”]“;T。类型= [“编程语言”“编程语言”“编程语言”]“

T =3×2表令牌类型________ ______________________“MATLAB编程语言”“c++”“编程语言”“c#编程语言”

在标记文本使用自定义的令牌的表和视图令牌的细节。

文件= tokenizedDocument (str,“CustomTokens”T);tdetails = tokenDetails(文档)

tdetails =11×5表令牌DocumentNumber LineNumber类型语言__________ _________________ * * * ____________________——“我”字母在“我”1 1字母在“经历”1 1字母en”在“1 1字母en " MATLAB编程语言在”、“1 1标点符号在“c++”编程语言en”、“1 1标点en”和“1 1字母在“c#”编程语言在“。”1 1 punctuation en

指定自定义令牌使用正则表达式

打开生活的脚本

的tokenizedDocument函数,默认情况下,将单词和令牌包含符号。例如,函数将文本版本:2”为多个令牌。

str =“升级到版本:2牧师:3。”;文件= tokenizedDocument (str)

文件= tokenizedDocument: 9令牌:升级到版本:2牧师:3。

防止函数分割标记有特定模式,指定这些模式使用“RegularExpressions”选择。

指定正则表达式检测标记表示版本和修改数字:字符串的数字出现后版本:“和牧师:“分别。

文件= tokenizedDocument (str,“RegularExpressions”,(“版本:\ d +”“牧师:\ d +”])

文件= tokenizedDocument: 5令牌:升级到版本:2牧师:3。

自定义令牌,在默认情况下,有令牌类型“自定义”。查看标记的细节。列类型包含令牌类型。

tdetails = tokenDetails(文档)

tdetails =5×5表令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________“升级”1 1字母en”“1 1字母en "版本:2 1 1自定义在“牧师:3”1 1自定义在“。”1 1 punctuation en

指定自己的令牌类型,输入正则表达式作为一个表与正则表达式列命名模式和令牌类型列命名类型。

T =表;T。模式= [“版本:\ d +”“牧师:\ d +”]“;T。类型= [“版本”“修订”]“

T =2×2表模式类型_____ __________”版本:\ d +”“版本”“牧师:\ d +”“修订”

在标记文本使用自定义的令牌的表和视图令牌的细节。

文件= tokenizedDocument (str,“RegularExpressions”T);tdetails = tokenDetails(文档)

tdetails =5×5表令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________“升级”1 1字母en”“1 1字母在“版本:2”1 1版本en "牧师:3 1 1修订en”。“1 1 punctuation en

文档搜索词出现

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

寻找“生命”这个词。

台=上下文(文档,“生命”);头(台)

上下文文档词________________________________________________________ ________——”consumst你自己单身生活啊你徒劳的”9 10“不是假冒行生活生活修复次铅笔”16 35 d假冒行生活生活修复铅笔基金会的“16 36“天知道墓藏生活展示半部分编写b”17日14”他眼睛长给生活你“18 69年“温柔的大使馆爱你生活四个二沉”45 23“大美虽然情人生活美丽黑色线条”63年50 s剪掉第二生活第二头在美”68年27

查看事件在一个字符串数组。

tbl.Context

ans =23 x1字符串“consumst你自己单身生活啊你徒劳的”“不是假冒行生活生活修复次铅笔”“d假冒行生活生活修复次铅笔基金会”“天知道墓藏生活展示半部分编写b”“他眼睛长给生活你”“温柔的大使馆爱你生活四个二沉”“大美虽然情人生活美丽黑色线条”“s剪掉第二生活第二头在美”“e排练让爱甚至生命衰变以免智慧世界lo”“圣保释带走生活有兴趣memor”“艺术你生活失去了渣滓猎物蠕虫身体死牛”“思想食品生活sweetseasond淋浴gro”“tten名字因此不朽的生命虽然一旦w”“美沉默的人给生命带来墓生活fa”“已经把坟墓的生活生活公平眼睛诗人赞美d”“偷你自己去生活你是我向李”一词“菲你放心我的生活不再你的爱留在dep”“恐惧严重错误至少生活有更好的状态是“结束”anst烦恼变化无常的心灵、生活你反抗难道撒谎啊,哈哈”“名声更快时间浪费生命你preventst镰刀cr”“ess有害行为更好的生活提供公共酒吧”“吃讨厌把savd生活说““许多仙女vowd贞洁的生活保持了跳闸maide”

日本标记文本

打开生活的脚本

日本标记文本使用tokenizedDocument。日本文本自动检测功能。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)

文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6令牌:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。

德国标记文本

打开生活的脚本

德国标记文本使用tokenizedDocument。德国文本自动检测功能。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)

文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。

引用

[1]Unicode文本分割。https://www.unicode.org/reports/tr29/

[2]边界分析。https://unicode-org.github.io/icu/userguide/boundaryanalysis/

[3]MeCab:另一种词性和形态分析仪。https://taku910.github.io/mecab/

版本历史

介绍了R2017b

全部展开

R2022a:`tokenizedDocument`不分割标记包含数字和一些特殊字符

从R2022a开始,tokenizedDocument不分割一些令牌数字出现在一些特殊字符,如时间,旁边连字符,冒号,斜杠,科学记数法。这种行为可以产生更好的结果当分词文本包含数字、日期和时间。

在以前的版本中,tokenizedDocument可能在这些字符分割。复制的行为,在标记文本手动或插入特殊字符前使用空格字符tokenizedDocument。

R2019b:`tokenizedDocument`检测到韩国语言

从R2019b开始,tokenizedDocument检测到朝鲜语言和设置“语言”选项“柯”。这个默认行为的变化addSentenceDetails,addPartOfSpeechDetails,removeStopWords,normalizeWords韩国输入文档的功能。这种变化允许软件使用Korean-specific规则和单词列表进行分析。如果tokenizedDocument错误检测文本作为韩国,那么您可以指定语言手动设置“语言”名称-值对的tokenizedDocument。

在以前的版本中,tokenizedDocument通常检测韩国文字为英语和设置“语言”选项“en”。复制这种行为,手动设置“语言”名称-值对的tokenizedDocument来“en”。

R2018b:`tokenizedDocument`检测到表情符号

从R2018b开始,tokenizedDocument默认情况下,检测表情符号标记。这种行为更容易分析文本包含表情符号。

R2017b R2018a,tokenizedDocument将表情符号标记分为多个令牌。复制这种行为,tokenizedDocument,指定“DetectPatterns”选项是{“电子邮件地址”、“网址”、“标签”,“在提及”}。

R2018b:`tokenDetails`返回令牌类型`emoji`emoji字符

从R2018b开始,tokenizedDocument检测和emoji字符tokenDetails这些令牌型函数报告“emoji”。这使得它更容易分析文本包含emoji字符。

在R2018a,tokenDetails报告emoji字符型“其他”。找到令牌型的指标“emoji”或“其他”,使用指数idx = tdetails。类型== "emoji" | tdetails.Type == "other",在那里tdetails是一个令牌表细节。

R2018b:`tokenizedDocument`没有在削减和冒号字符位数之间的分裂吗

从R2018b开始,tokenizedDocument在削减不分裂,反斜杠,或冒号字符时出现两位数。这种行为可以产生更好的结果当分词文本包含日期和时间。

在以前的版本中,tokenizedDocument在这些字符分割。复制的行为,在标记文本手动或插入空格字符在削减,反斜杠,冒号字符前使用tokenizedDocument。

tokenizedDocument

描述

创建

语法

描述

输入参数

str- - - - - -输入文本字符串数组|特征向量|单元阵列的特征向量|单元阵列的字符串数组

TokenizeMethod- - - - - -方法标记文件unicode的|“mecab”|mecabOptions对象|“没有”

DetectPatterns- - - - - -复杂的令牌来检测模式“所有”(默认)|特征向量|字符串数组|单元阵列的特征向量

CustomTokens- - - - - -自定义令牌来检测”(默认)|字符串数组|特征向量|单元阵列的特征向量|表

RegularExpressions- - - - - -正则表达式检测”(默认)|字符串数组|特征向量|单元阵列的特征向量|表

TopLevelDomains- - - - - -顶级域名用于web地址检测特征向量|字符串数组|单元阵列的特征向量

语言- - - - - -语言“en”|“ja”|“德”|“柯”

属性

词汇表- - - - - -独特的文字文件中字符串数组

对象的功能

预处理

令牌的细节

出口

操作和转换

显示

例子

标记文本

检测复杂的令牌

从文档删除停用词

干细胞在文档

指定自定义令牌

指定自定义令牌使用正则表达式

文档搜索词出现

日本标记文本

德国标记文本

更多关于

语言的注意事项

引用

版本历史

R2022a:tokenizedDocument不分割标记包含数字和一些特殊字符

R2019b:tokenizedDocument检测到韩国语言

R2018b:tokenizedDocument检测到表情符号

R2018b:tokenDetails返回令牌类型emojiemoji字符

R2018b:tokenizedDocument没有在削减和冒号字符位数之间的分裂吗

另请参阅

主题

`str`- - - - - -输入文本
字符串数组|特征向量|单元阵列的特征向量|单元阵列的字符串数组

`TokenizeMethod`- - - - - -方法标记文件
`unicode的`|`“mecab”`|`mecabOptions`对象|`“没有”`

`DetectPatterns`- - - - - -复杂的令牌来检测模式
`“所有”`(默认)|特征向量|字符串数组|单元阵列的特征向量

`CustomTokens`- - - - - -自定义令牌来检测
`”`(默认)|字符串数组|特征向量|单元阵列的特征向量|表

`RegularExpressions`- - - - - -正则表达式检测
`”`(默认)|字符串数组|特征向量|单元阵列的特征向量|表

`TopLevelDomains`- - - - - -顶级域名用于web地址检测
特征向量|字符串数组|单元阵列的特征向量

`语言`- - - - - -语言
`“en”`|`“ja”`|`“德”`|`“柯”`

`词汇表`- - - - - -独特的文字文件中
字符串数组

R2022a:`tokenizedDocument`不分割标记包含数字和一些特殊字符

R2019b:`tokenizedDocument`检测到韩国语言

R2018b:`tokenizedDocument`检测到表情符号

R2018b:`tokenDetails`返回令牌类型`emoji`emoji字符

R2018b:`tokenizedDocument`没有在削减和冒号字符位数之间的分裂吗