主要内容

tokenizedDocument

数组标记化的文档进行文本分析

描述

一个标记化的文档是一个文档表示为一个单词(也称为集合令牌),这是用于文本分析。

使用标记化的文档:

函数支持英语、日语、德语,金宝app和韩国的文本。学习如何使用tokenizedDocument为其他语言,明白了语言的注意事项

创建

描述

文档= tokenizedDocument创建一个标量标记化的文档没有令牌。

例子

文档= tokenizedDocument (str)将一个字符串数组的元素,并返回一个数组标记化的文档。

例子

文档= tokenizedDocument (str,名称,值)使用一个或多个指定附加选项名称-值对参数。

输入参数

全部展开

输入文本,指定为字符串数组,特征向量,单元阵列的特征向量,或细胞字符串数组的数组。

如果输入的文本还没有分裂成的话,那么str必须是一个字符串数组,特征向量,单元阵列特征向量,或一个细胞一系列字符串标量。

例子:["短文档的一个例子”;“第二个短文件”)

例子:一个文档的一个例子

例子:{一个简短的文档的一个例子,“第二个短文档”}

如果输入文本已经分裂成单词,然后指定“TokenizeMethod”“没有”。如果str包含一个文档,那么它必须是一个字符串向量的话,行单元阵列特征向量,或一个细胞包含一个字符串数组向量的单词。如果str包含多个文件,那么它必须是一个字符串数组的单元阵列。

例子:["一个"“例子”“文档”)

例子:{“一个”,“例子”,“文档”}

例子:{(“一个”“例子”“”“”“短”“文档”)}

例子:{(“一个”“例子”“”“”“短”“文档”);[“一”“二”“短”“文档”)}

数据类型:字符串|字符|细胞

名称-值对的观点

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:DetectPatterns,{“电子邮件地址”,“网址”}检测到电子邮件地址和网址

方法标记文件,指定为逗号分隔组成的“TokenizeMethod”和下列之一:

  • unicode的基于Unicode -标记输入文本使用规则®标准附件# 29[1]和ICU记号赋予器[2]。如果str是一个单元阵列,那么的元素str必须是字符串标量或特征向量。如果“语言”“en”“德”,然后unicode的是默认的。

  • “mecab”——日本和韩国标记文本使用MeCab记号赋予器[3]。如果“语言”“ja”“柯”,然后“mecab”是默认的。

  • mecabOptions对象——日本和韩国标记文本使用MeCab选项指定一个mecabOptions对象。

  • “没有”——不标记输入文本。

如果输入文本已经分裂成单词,然后指定“TokenizeMethod”“没有”。如果str包含一个文档,那么它必须是一个字符串向量的话,行单元阵列特征向量,或一个细胞包含一个字符串数组向量的单词。如果str包含多个文件,那么它必须是一个字符串数组的单元阵列。

复杂的令牌来检测模式,指定为逗号分隔组成的“DetectPatterns”“没有”,“所有”,或一个字符串包含下列一个或多个单元阵列。

  • “电子邮件地址”——检测电子邮件地址。例如,治疗“user@domain.com”作为一个令牌。

  • “网址”——检测网络地址。例如,治疗“//www.tatmou.com”作为一个令牌。

  • “标签”——检测标签。例如,治疗“# MATLAB”作为一个令牌。

  • 一提到他的——检测at-mentions。例如,治疗“@MathWorks”作为一个令牌。

  • “表情符号”——检测表情符号。例如,治疗“:- d”作为一个令牌。

如果DetectPatterns“没有”,那么函数不检测任何复杂的标记模式。如果DetectPatterns“所有”,那么函数检测所有复杂的令牌上市模式。

例子:“DetectPatterns”、“标签”

例子:DetectPatterns,{“电子邮件地址”,“网址”}

数据类型:字符|字符串|细胞

自定义令牌来检测,指定为逗号分隔两人组成的“CustomTokens”和一个以下。

  • 一个字符串数组,特征向量,或单元阵列特征向量包含自定义标记。

  • 这个表包含自定义标记列命名令牌和相应的令牌类型列命名类型

如果您指定自定义令牌作为字符串数组,特征向量,或单元阵列的特征向量,然后分配令牌类型的函数“自定义”。指定一个自定义令牌类型,使用表格输入。把令牌类型使用tokenDetails函数。

例子:“CustomTokens”, (“c++”“c#”]

数据类型:字符|字符串||细胞

正则表达式检测,指定为逗号分隔组成的“RegularExpressions”和一个以下。

  • 一个字符串数组,特征向量,或单元阵列特征向量包含正则表达式。

  • 这个表包含正则表达式列命名模式和相应的列中的令牌类型命名类型

如果你指定正则表达式作为一个字符串数组,特征向量,或单元阵列的特征向量,然后分配令牌类型的函数“自定义”。指定一个自定义令牌类型,使用表格输入。把令牌类型使用tokenDetails函数。

例子:“RegularExpressions”,“版本:\ d +”“牧师:\ d +”)

数据类型:字符|字符串||细胞

顶级域名用于web地址检测、指定为逗号分隔组成的“TopLevelDomains”一个特征向量,特征向量的字符串数组,数组或单元。默认情况下,该函数使用的输出topLevelDomains

此选项仅适用于如果“DetectPatterns”“所有”或者包含“网址”

例子:“TopLevelDomains”, (“com”“净”“org”]

数据类型:字符|字符串|细胞

语言,指定为逗号分隔组成的“语言”和一个以下。

  • “en”——英语。这个选项也设置的默认值“TokenizeMethod”unicode的

  • “ja”——日本。这个选项也设置的默认值“TokenizeMethod”“mecab”

  • “德”——德国。这个选项也设置的默认值“TokenizeMethod”unicode的

  • “柯”——韩国人。这个选项也设置的默认值“TokenizeMethod”“mecab”

如果你不指定一个值,那么该函数检测输入文本的语言使用corpusLanguage函数。

此选项指定了令牌的语言细节。把语言的细节令牌,使用tokenDetails这些语言细节决定的行为removeStopWords,addPartOfSpeechDetails,normalizeWords,addSentenceDetails,addEntityDetails功能上的令牌。

关于语言支持的更多信息以文本分析工具箱™,明白了金宝app语言的注意事项

例子:“语言”、“ja”

属性

全部展开

独特的文字文件中,指定为一个字符串数组。这个词没有出现在任何特定的顺序。

数据类型:字符串

对象的功能

全部展开

erasePunctuation 从文本和文档删除标点符号
removeStopWords 从文档删除停用词
removeWords 删除选中的文字从文档或bag-of-words模型
normalizeWords 茎或lemmatize单词
用语 正确的拼写单词
replaceWords 替代词在文档中
replaceNgrams 在文档中替换字格
removeEmptyDocuments 删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型
较低的 将文档转换成小写
将文档转换成大写
tokenDetails 标记化的文档中标记数组的细节
addSentenceDetails 句子数字添加到文档
addPartOfSpeechDetails 词性标记添加到文档
addLanguageDetails 语言标识符添加到文档
addTypeDetails 令牌类型的细节添加到文档
addLemmaDetails 引理形式的标记添加到文档
addEntityDetails 实体标记添加到文档
writeTextDocument 写文档文本文件
doclength 文档在文档数组的长度
上下文 文档搜索单词或语法出现在上下文
joinWords 通过加入的话将文档转换为字符串
doc2cell 将文档转换成字符串向量的单元阵列
字符串 标量文档转换为字符串向量
+ 附加文件
取代 替换文件中的子字符串
docfun 功能适用于词汇的文档
regexprep 使用正则表达式替换文本单词的文档
wordcloud 创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型

例子

全部折叠

从一个字符串数组创建标记化的文档。

str = [“一个短句”“第二个短句”]
str =2 x1字符串“一个短句”“第二个短句”
文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 6标记:一个短句4令牌:第二个短句

从字符串创建一个标记化的文档str。默认情况下,函数将标签“# MATLAB”的表情符号“:- d”和网络地址“//www.tatmou.com/help”作为单一的令牌。

str =“学习如何分析文本# MATLAB !:- d看到//www.tatmou.com/help/”;文档= tokenizedDocument (str)
文档= tokenizedDocument: 11令牌:学习如何分析文本# MATLAB !:- d参见//www.tatmou.com/help/

只检测标签是复杂的令牌,指定“DetectPatterns”选项是“标签”只有。函数符表情符号“:- d”和网络地址“//www.tatmou.com/help”为多个令牌。

文档= tokenizedDocument (str,“DetectPatterns”,“标签”)
文档= tokenizedDocument: 24令牌:学习如何分析文本# MATLAB !:- D看到https: / / www。mathworks。com /帮助/

移除阻止单词的文档使用数组removeStopWords。的tokenizedDocument功能检测到文档都是英文的,所以removeStopWords删除英语停止的话。

文件= tokenizedDocument ([“一个短句”“第二个短句”]);newDocuments = removeStopWords(文档)
newDocuments = 2 x1 tokenizedDocument: 3令牌:例子短句3令牌:第二个短句

茎单词在一个文档数组中使用波特抽梗机。

文件= tokenizedDocument ([“措辞强硬的词”“另一个集合的单词”]);newDocuments = normalizeWords(文档)
newDocuments = 2 x1 tokenizedDocument: 6令牌:strongli词的收集4令牌:程序收集的词

tokenizedDocument函数,默认情况下,将单词和令牌包含符号。例如,函数将“c++”和“c#”为多个令牌。

str =“我经历了在MATLAB c++, c#和。”;文件= tokenizedDocument (str)
文件= tokenizedDocument: 14标记:我经历了在MATLAB c++, c#。

防止函数分割包含符号的令牌,指定自定义令牌使用“CustomTokens”选择。

文件= tokenizedDocument (str,“CustomTokens”,(“c++”“c#”])
文件= tokenizedDocument: 11令牌:我经历了在MATLAB c++, c#。

自定义令牌有令牌类型“自定义”。查看标记的细节。列类型包含令牌类型。

tdetails = tokenDetails(文档)
tdetails =11×5表令牌DocumentNumber LineNumber类型语言__________ _________________ * * *……——“我”字母在“我”1 1字母在“经历”1 1字母en”在“1 1字母在“MATLAB”字母en”、“1 1标点符号在“c++”定制en”、“1 1标点en”和“1 1字母在“c#”1 1自定义在“。”1 1 punctuation en

指定自己的令牌类型,输入自定义标记与标记列的表命名令牌,在一列指定类型类型。指定一个自定义类型的令牌不包括符号,包括表中。例如,创建一个表,将分配“MATLAB”、“c++”,和“c#”“编程语言”令牌类型。

T =表;T。令牌= [“MATLAB”“c++”“c#”]“;T。类型= [“编程语言”“编程语言”“编程语言”]“
T =3×2表令牌类型________ ______________________“MATLAB编程语言”“c++”“编程语言”“c#编程语言”

在标记文本使用自定义的令牌的表和视图令牌的细节。

文件= tokenizedDocument (str,“CustomTokens”T);tdetails = tokenDetails(文档)
tdetails =11×5表令牌DocumentNumber LineNumber类型语言__________ _________________ * * * ____________________——“我”字母在“我”1 1字母在“经历”1 1字母en”在“1 1字母en " MATLAB编程语言在”、“1 1标点符号在“c++”编程语言en”、“1 1标点en”和“1 1字母在“c#”编程语言在“。”1 1 punctuation en

tokenizedDocument函数,默认情况下,将单词和令牌包含符号。例如,函数将文本版本:2”为多个令牌。

str =“升级到版本:2牧师:3。”;文件= tokenizedDocument (str)
文件= tokenizedDocument: 9令牌:升级到版本:2牧师:3。

防止函数分割标记有特定模式,指定这些模式使用“RegularExpressions”选择。

指定正则表达式检测标记表示版本和修改数字:字符串的数字出现后版本:“牧师:“分别。

文件= tokenizedDocument (str,“RegularExpressions”,(“版本:\ d +”“牧师:\ d +”])
文件= tokenizedDocument: 5令牌:升级到版本:2牧师:3。

自定义令牌,在默认情况下,有令牌类型“自定义”。查看标记的细节。列类型包含令牌类型。

tdetails = tokenDetails(文档)
tdetails =5×5表令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________“升级”1 1字母en”“1 1字母en "版本:2 1 1自定义在“牧师:3”1 1自定义在“。”1 1 punctuation en

指定自己的令牌类型,输入正则表达式作为一个表与正则表达式列命名模式和令牌类型列命名类型

T =表;T。模式= [“版本:\ d +”“牧师:\ d +”]“;T。类型= [“版本”“修订”]“
T =2×2表模式类型_____ __________”版本:\ d +”“版本”“牧师:\ d +”“修订”

在标记文本使用自定义的令牌的表和视图令牌的细节。

文件= tokenizedDocument (str,“RegularExpressions”T);tdetails = tokenDetails(文档)
tdetails =5×5表令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________“升级”1 1字母en”“1 1字母在“版本:2”1 1版本en "牧师:3 1 1修订en”。“1 1 punctuation en

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

寻找“生命”这个词。

台=上下文(文档,“生命”);头(台)
ans =8×3表上下文文档词________________________________________________________ ________——”consumst你自己单身生活啊你徒劳的”9 10“不是假冒行生活生活修复次铅笔”16 35 d假冒行生活生活修复铅笔基金会的“16 36“天知道墓藏生活展示半部分编写b”17日14”他眼睛长给生活你“18 69年“温柔的大使馆爱你生活四个二沉”45 23“大美虽然情人生活美丽黑色线条”63年50 s剪掉第二生活第二头在美”68年27

查看事件在一个字符串数组。

tbl.Context
ans =23 x1字符串“consumst你自己单身生活啊你徒劳的”“不是假冒行生活生活修复次铅笔”“d假冒行生活生活修复次铅笔基金会”“天知道墓藏生活展示半部分编写b”“他眼睛长给生活你”“温柔的大使馆爱你生活四个二沉”“大美虽然情人生活美丽黑色线条”“s剪掉第二生活第二头在美”“e排练让爱甚至生命衰变以免智慧世界lo”“圣保释带走生活有兴趣memor”“艺术你生活失去了渣滓猎物蠕虫身体死牛”“思想食品生活sweetseasond淋浴gro”“tten名字因此不朽的生命虽然一旦w”“美沉默的人给生命带来墓生活fa”“已经把坟墓的生活生活公平眼睛诗人赞美d”“偷你自己去生活你是我向李”一词“菲你放心我的生活不再你的爱留在dep”“恐惧严重错误至少生活有更好的状态是“结束”anst烦恼变化无常的心灵、生活你反抗难道撒谎啊,哈哈”“名声更快时间浪费生命你preventst镰刀cr”“ess有害行为更好的生活提供公共酒吧”“吃讨厌把savd生活说““许多仙女vowd贞洁的生活保持了跳闸maide”

日本标记文本使用tokenizedDocument。日本文本自动检测功能。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)
文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6令牌:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。

德国标记文本使用tokenizedDocument。德国文本自动检测功能。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。

更多关于

全部展开

兼容性的考虑

全部展开

行为改变R2019b

行为改变R2018b

行为改变R2018b

行为改变R2018b

引用

[1]Unicode文本分割https://www.unicode.org/reports/tr29/

[3]MeCab:另一种词性和形态分析仪https://taku910.github.io/mecab/

介绍了R2017b