数组标记化的文档进行文本分析
一个标记化的文档是一个文档表示为一个单词(也称为集合令牌),这是用于文本分析。
使用标记化的文档:
检测复杂的令牌在文本,如网址、表情符号,emoji和标签。
删除词汇如停止使用removeWords
或removeStopWords
功能。
执行预处理等任务也能进行阻止或词元化使用normalizeWords
函数。
分析词和语法使用频率bagOfWords
和bagOfNgrams
对象。
添加句子和词性使用细节addSentenceDetails
和addPartOfSpeechDetails
功能。
添加实体标签使用addEntityDetails
函数。
视图的细节令牌使用tokenDetails
函数。
函数支持英语、日语、德语,金宝app和韩国的文本。学习如何使用tokenizedDocument
为其他语言,明白了语言的注意事项。
str
- - - - - -输入文本输入文本,指定为字符串数组,特征向量,单元阵列的特征向量,或细胞字符串数组的数组。
如果输入的文本还没有分裂成的话,那么str
必须是一个字符串数组,特征向量,单元阵列特征向量,或一个细胞一系列字符串标量。
例子:["短文档的一个例子”;“第二个短文件”)
例子:一个文档的一个例子
例子:{一个简短的文档的一个例子,“第二个短文档”}
如果输入文本已经分裂成单词,然后指定“TokenizeMethod”
是“没有”
。如果str
包含一个文档,那么它必须是一个字符串向量的话,行单元阵列特征向量,或一个细胞包含一个字符串数组向量的单词。如果str
包含多个文件,那么它必须是一个字符串数组的单元阵列。
例子:["一个"“例子”“文档”)
例子:{“一个”,“例子”,“文档”}
例子:{(“一个”“例子”“”“”“短”“文档”)}
例子:{(“一个”“例子”“”“”“短”“文档”);[“一”“二”“短”“文档”)}
数据类型:字符串
|字符
|细胞
指定可选的逗号分隔条名称,值
参数。的名字
参数名称和吗价值
相应的价值。的名字
必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家
。
DetectPatterns,{“电子邮件地址”,“网址”}
检测到电子邮件地址和网址
TokenizeMethod
- - - - - -方法标记文件unicode的
|“mecab”
|mecabOptions
对象|“没有”
方法标记文件,指定为逗号分隔组成的“TokenizeMethod”
和下列之一:
unicode的
基于Unicode -标记输入文本使用规则®标准附件# 29[1]和ICU记号赋予器[2]。如果str
是一个单元阵列,那么的元素str
必须是字符串标量或特征向量。如果“语言”
是“en”
或“德”
,然后unicode的
是默认的。
“mecab”
——日本和韩国标记文本使用MeCab记号赋予器[3]。如果“语言”
是“ja”
或“柯”
,然后“mecab”
是默认的。
mecabOptions
对象——日本和韩国标记文本使用MeCab选项指定一个mecabOptions
对象。
“没有”
——不标记输入文本。
如果输入文本已经分裂成单词,然后指定“TokenizeMethod”
是“没有”
。如果str
包含一个文档,那么它必须是一个字符串向量的话,行单元阵列特征向量,或一个细胞包含一个字符串数组向量的单词。如果str
包含多个文件,那么它必须是一个字符串数组的单元阵列。
DetectPatterns
- - - - - -复杂的令牌来检测模式“所有”
(默认)|特征向量|字符串数组|单元阵列的特征向量复杂的令牌来检测模式,指定为逗号分隔组成的“DetectPatterns”
和“没有”
,“所有”
,或一个字符串包含下列一个或多个单元阵列。
“电子邮件地址”
——检测电子邮件地址。例如,治疗“user@domain.com”
作为一个令牌。
“网址”
——检测网络地址。例如,治疗“//www.tatmou.com”
作为一个令牌。
“标签”
——检测标签。例如,治疗“# MATLAB”
作为一个令牌。
一提到他的
——检测at-mentions。例如,治疗“@MathWorks”
作为一个令牌。
“表情符号”
——检测表情符号。例如,治疗“:- d”
作为一个令牌。
如果DetectPatterns
是“没有”
,那么函数不检测任何复杂的标记模式。如果DetectPatterns
是“所有”
,那么函数检测所有复杂的令牌上市模式。
例子:“DetectPatterns”、“标签”
例子:DetectPatterns,{“电子邮件地址”,“网址”}
数据类型:字符
|字符串
|细胞
CustomTokens
- - - - - -自定义令牌来检测”
(默认)|字符串数组|特征向量|单元阵列的特征向量|表自定义令牌来检测,指定为逗号分隔两人组成的“CustomTokens”
和一个以下。
一个字符串数组,特征向量,或单元阵列特征向量包含自定义标记。
这个表包含自定义标记列命名令牌
和相应的令牌类型列命名类型
。
如果您指定自定义令牌作为字符串数组,特征向量,或单元阵列的特征向量,然后分配令牌类型的函数“自定义”
。指定一个自定义令牌类型,使用表格输入。把令牌类型使用tokenDetails
函数。
例子:“CustomTokens”, (“c++”“c#”]
数据类型:字符
|字符串
|表
|细胞
RegularExpressions
- - - - - -正则表达式检测”
(默认)|字符串数组|特征向量|单元阵列的特征向量|表正则表达式检测,指定为逗号分隔组成的“RegularExpressions”
和一个以下。
一个字符串数组,特征向量,或单元阵列特征向量包含正则表达式。
这个表包含正则表达式列命名模式
和相应的列中的令牌类型命名类型
。
如果你指定正则表达式作为一个字符串数组,特征向量,或单元阵列的特征向量,然后分配令牌类型的函数“自定义”
。指定一个自定义令牌类型,使用表格输入。把令牌类型使用tokenDetails
函数。
例子:“RegularExpressions”,“版本:\ d +”“牧师:\ d +”)
数据类型:字符
|字符串
|表
|细胞
TopLevelDomains
- - - - - -顶级域名用于web地址检测顶级域名用于web地址检测、指定为逗号分隔组成的“TopLevelDomains”
一个特征向量,特征向量的字符串数组,数组或单元。默认情况下,该函数使用的输出topLevelDomains
。
此选项仅适用于如果“DetectPatterns”
是“所有”
或者包含“网址”
。
例子:“TopLevelDomains”, (“com”“净”“org”]
数据类型:字符
|字符串
|细胞
语言
- - - - - -语言“en”
|“ja”
|“德”
|“柯”
语言,指定为逗号分隔组成的“语言”
和一个以下。
“en”
——英语。这个选项也设置的默认值“TokenizeMethod”
来unicode的
。
“ja”
——日本。这个选项也设置的默认值“TokenizeMethod”
来“mecab”
。
“德”
——德国。这个选项也设置的默认值“TokenizeMethod”
来unicode的
。
“柯”
——韩国人。这个选项也设置的默认值“TokenizeMethod”
来“mecab”
。
如果你不指定一个值,那么该函数检测输入文本的语言使用corpusLanguage
函数。
此选项指定了令牌的语言细节。把语言的细节令牌,使用tokenDetails
。这些语言细节决定的行为removeStopWords
,addPartOfSpeechDetails
,normalizeWords
,addSentenceDetails
,addEntityDetails
功能上的令牌。
关于语言支持的更多信息以文本分析工具箱™,明白了金宝app语言的注意事项。
例子:“语言”、“ja”
词汇表
- - - - - -独特的文字文件中独特的文字文件中,指定为一个字符串数组。这个词没有出现在任何特定的顺序。
数据类型:字符串
erasePunctuation |
从文本和文档删除标点符号 |
removeStopWords |
从文档删除停用词 |
removeWords |
删除选中的文字从文档或bag-of-words模型 |
normalizeWords |
茎或lemmatize单词 |
用语 |
正确的拼写单词 |
replaceWords |
替代词在文档中 |
replaceNgrams |
在文档中替换字格 |
removeEmptyDocuments |
删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型 |
较低的 |
将文档转换成小写 |
上 |
将文档转换成大写 |
tokenDetails |
标记化的文档中标记数组的细节 |
addSentenceDetails |
句子数字添加到文档 |
addPartOfSpeechDetails |
词性标记添加到文档 |
addLanguageDetails |
语言标识符添加到文档 |
addTypeDetails |
令牌类型的细节添加到文档 |
addLemmaDetails |
引理形式的标记添加到文档 |
addEntityDetails |
实体标记添加到文档 |
writeTextDocument |
写文档文本文件 |
wordcloud |
创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型 |
从一个字符串数组创建标记化的文档。
str = [“一个短句”“第二个短句”]
str =2 x1字符串“一个短句”“第二个短句”
文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 6标记:一个短句4令牌:第二个短句
从字符串创建一个标记化的文档str
。默认情况下,函数将标签“# MATLAB”
的表情符号“:- d”
和网络地址“//www.tatmou.com/help”
作为单一的令牌。
str =“学习如何分析文本# MATLAB !:- d看到//www.tatmou.com/help/”;文档= tokenizedDocument (str)
文档= tokenizedDocument: 11令牌:学习如何分析文本# MATLAB !:- d参见//www.tatmou.com/help/
只检测标签是复杂的令牌,指定“DetectPatterns”
选项是“标签”
只有。函数符表情符号“:- d”
和网络地址“//www.tatmou.com/help”
为多个令牌。
文档= tokenizedDocument (str,“DetectPatterns”,“标签”)
文档= tokenizedDocument: 24令牌:学习如何分析文本# MATLAB !:- D看到https: / / www。mathworks。com /帮助/
移除阻止单词的文档使用数组removeStopWords
。的tokenizedDocument
功能检测到文档都是英文的,所以removeStopWords
删除英语停止的话。
文件= tokenizedDocument ([“一个短句”“第二个短句”]);newDocuments = removeStopWords(文档)
newDocuments = 2 x1 tokenizedDocument: 3令牌:例子短句3令牌:第二个短句
茎单词在一个文档数组中使用波特抽梗机。
文件= tokenizedDocument ([“措辞强硬的词”“另一个集合的单词”]);newDocuments = normalizeWords(文档)
newDocuments = 2 x1 tokenizedDocument: 6令牌:strongli词的收集4令牌:程序收集的词
的tokenizedDocument
函数,默认情况下,将单词和令牌包含符号。例如,函数将“c++”和“c#”为多个令牌。
str =“我经历了在MATLAB c++, c#和。”;文件= tokenizedDocument (str)
文件= tokenizedDocument: 14标记:我经历了在MATLAB c++, c#。
防止函数分割包含符号的令牌,指定自定义令牌使用“CustomTokens”
选择。
文件= tokenizedDocument (str,“CustomTokens”,(“c++”“c#”])
文件= tokenizedDocument: 11令牌:我经历了在MATLAB c++, c#。
自定义令牌有令牌类型“自定义”
。查看标记的细节。列类型
包含令牌类型。
tdetails = tokenDetails(文档)
tdetails =11×5表令牌DocumentNumber LineNumber类型语言__________ _________________ * * *……——“我”字母在“我”1 1字母在“经历”1 1字母en”在“1 1字母在“MATLAB”字母en”、“1 1标点符号在“c++”定制en”、“1 1标点en”和“1 1字母在“c#”1 1自定义在“。”1 1 punctuation en
指定自己的令牌类型,输入自定义标记与标记列的表命名令牌
,在一列指定类型类型
。指定一个自定义类型的令牌不包括符号,包括表中。例如,创建一个表,将分配“MATLAB”、“c++”,和“c#”“编程语言”
令牌类型。
T =表;T。令牌= [“MATLAB”“c++”“c#”]“;T。类型= [“编程语言”“编程语言”“编程语言”]“
T =3×2表令牌类型________ ______________________“MATLAB编程语言”“c++”“编程语言”“c#编程语言”
在标记文本使用自定义的令牌的表和视图令牌的细节。
文件= tokenizedDocument (str,“CustomTokens”T);tdetails = tokenDetails(文档)
tdetails =11×5表令牌DocumentNumber LineNumber类型语言__________ _________________ * * * ____________________——“我”字母在“我”1 1字母在“经历”1 1字母en”在“1 1字母en " MATLAB编程语言在”、“1 1标点符号在“c++”编程语言en”、“1 1标点en”和“1 1字母在“c#”编程语言在“。”1 1 punctuation en
的tokenizedDocument
函数,默认情况下,将单词和令牌包含符号。例如,函数将文本版本:2”
为多个令牌。
str =“升级到版本:2牧师:3。”;文件= tokenizedDocument (str)
文件= tokenizedDocument: 9令牌:升级到版本:2牧师:3。
防止函数分割标记有特定模式,指定这些模式使用“RegularExpressions”
选择。
指定正则表达式检测标记表示版本和修改数字:字符串的数字出现后版本:“
和牧师:“
分别。
文件= tokenizedDocument (str,“RegularExpressions”,(“版本:\ d +”“牧师:\ d +”])
文件= tokenizedDocument: 5令牌:升级到版本:2牧师:3。
自定义令牌,在默认情况下,有令牌类型“自定义”
。查看标记的细节。列类型
包含令牌类型。
tdetails = tokenDetails(文档)
tdetails =5×5表令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________“升级”1 1字母en”“1 1字母en "版本:2 1 1自定义在“牧师:3”1 1自定义在“。”1 1 punctuation en
指定自己的令牌类型,输入正则表达式作为一个表与正则表达式列命名模式
和令牌类型列命名类型
。
T =表;T。模式= [“版本:\ d +”“牧师:\ d +”]“;T。类型= [“版本”“修订”]“
T =2×2表模式类型_____ __________”版本:\ d +”“版本”“牧师:\ d +”“修订”
在标记文本使用自定义的令牌的表和视图令牌的细节。
文件= tokenizedDocument (str,“RegularExpressions”T);tdetails = tokenDetails(文档)
tdetails =5×5表令牌DocumentNumber LineNumber类型语言__________ __________ * * * ___________ ________“升级”1 1字母en”“1 1字母在“版本:2”1 1版本en "牧师:3 1 1修订en”。“1 1 punctuation en
加载示例数据。该文件sonnetsPreprocessed.txt
莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt
在换行字符,文本分割成文档,然后标记文件。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
寻找“生命”这个词。
台=上下文(文档,“生命”);头(台)
ans =8×3表上下文文档词________________________________________________________ ________——”consumst你自己单身生活啊你徒劳的”9 10“不是假冒行生活生活修复次铅笔”16 35 d假冒行生活生活修复铅笔基金会的“16 36“天知道墓藏生活展示半部分编写b”17日14”他眼睛长给生活你“18 69年“温柔的大使馆爱你生活四个二沉”45 23“大美虽然情人生活美丽黑色线条”63年50 s剪掉第二生活第二头在美”68年27
查看事件在一个字符串数组。
tbl.Context
ans =23 x1字符串“consumst你自己单身生活啊你徒劳的”“不是假冒行生活生活修复次铅笔”“d假冒行生活生活修复次铅笔基金会”“天知道墓藏生活展示半部分编写b”“他眼睛长给生活你”“温柔的大使馆爱你生活四个二沉”“大美虽然情人生活美丽黑色线条”“s剪掉第二生活第二头在美”“e排练让爱甚至生命衰变以免智慧世界lo”“圣保释带走生活有兴趣memor”“艺术你生活失去了渣滓猎物蠕虫身体死牛”“思想食品生活sweetseasond淋浴gro”“tten名字因此不朽的生命虽然一旦w”“美沉默的人给生命带来墓生活fa”“已经把坟墓的生活生活公平眼睛诗人赞美d”“偷你自己去生活你是我向李”一词“菲你放心我的生活不再你的爱留在dep”“恐惧严重错误至少生活有更好的状态是“结束”anst烦恼变化无常的心灵、生活你反抗难道撒谎啊,哈哈”“名声更快时间浪费生命你preventst镰刀cr”“ess有害行为更好的生活提供公共酒吧”“吃讨厌把savd生活说““许多仙女vowd贞洁的生活保持了跳闸maide”
日本标记文本使用tokenizedDocument
。日本文本自动检测功能。
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)
文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6令牌:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。
德国标记文本使用tokenizedDocument
。德国文本自动检测功能。
str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。
的tokenizedDocument
函数的内置规则英语、日语、德语,韩语。英语和德语文本的unicode的
标记的方法tokenizedDocument
检测到令牌使用规则基于Unicode标准附件# 29[1]和ICU记号赋予器[2]、修改以更好地检测复杂的令牌,比如标签和url。日本和韩国文字的“mecab”
标记方法检测标记使用规则基于MeCab记号赋予器[3]。
为其他语言,你仍然可以尝试使用tokenizedDocument
。如果tokenizedDocument
不会产生有用的结果,然后尝试手动分词文本。创建一个tokenizedDocument
数组从手动标记化的文本设置“TokenizeMethod”
选项“没有”
。
有关更多信息,请参见语言的注意事项。
tokenizedDocument
检测到韩国语言行为改变R2019b
从R2019b开始,tokenizedDocument
检测到朝鲜语言和设置“语言”
选项“柯”
。这个默认行为的变化addSentenceDetails
,addPartOfSpeechDetails
,removeStopWords
,normalizeWords
韩国输入文档的功能。这种变化允许软件使用Korean-specific规则和单词列表进行分析。如果tokenizedDocument
错误检测文本作为韩国,那么您可以指定语言手动设置“语言”
名称-值对的tokenizedDocument
。
在以前的版本中,tokenizedDocument
通常检测韩国文字为英语和设置“语言”
选项“en”
。复制这种行为,手动设置“语言”
名称-值对的tokenizedDocument
来“en”
。
tokenizedDocument
检测到表情符号行为改变R2018b
从R2018b开始,tokenizedDocument
默认情况下,检测表情符号标记。这种行为更容易分析文本包含表情符号。
R2017b R2018a,tokenizedDocument
将表情符号标记分为多个令牌。复制这种行为,tokenizedDocument
,指定“DetectPatterns”
选项是{“电子邮件地址”、“网址”、“标签”,“在提及”}
。
tokenDetails
返回令牌类型emoji
emoji字符行为改变R2018b
从R2018b开始,tokenizedDocument
检测和emoji字符tokenDetails
这些令牌型函数报告“emoji”
。这使得它更容易分析文本包含emoji字符。
在R2018a,tokenDetails
报告emoji字符型“其他”
。找到令牌型的指标“emoji”
或“其他”
,使用指数idx = tdetails。类型== "emoji" | tdetails.Type == "other"
,在那里tdetails
是一个令牌表细节。
tokenizedDocument
没有在削减和冒号字符位数之间的分裂吗行为改变R2018b
从R2018b开始,tokenizedDocument
在削减不分裂,反斜杠,或冒号字符时出现两位数。这种行为会产生更好的结果,当分词文本包含日期和时间。
在以前的版本中,tokenizedDocument
在这些字符分割。复制的行为,在标记文本手动或插入空格字符在削减,反斜杠,冒号字符前使用tokenizedDocument
。
[1]Unicode文本分割。https://www.unicode.org/reports/tr29/
[3]MeCab:另一种词性和形态分析仪。https://taku910.github.io/mecab/
removeWords
|removeStopWords
|normalizeWords
|removeEmptyDocuments
|addSentenceDetails
|addPartOfSpeechDetails
|tokenDetails
|上下文
|joinWords
|bagOfWords
|bagOfNgrams
|replaceWords
|replaceNgrams
|addEntityDetails
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。金宝app
你也可以从下面的列表中选择一个网站:
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。