主要内容

文本数据准备

将文本数据导入MATLAB®并预处理以进行分析

Text Analytics Toolbox™包括用于处理来自设备日志,新闻提要,调查,操作员报告和社交媒体等原始文本的工具。使用这些工具从流行的文件格式,预处理原始文本,提取单个单词或多字短语(n-gram),将文本转换为数值表示并构建统计模型。有关显示如何入门的示例,请参阅准备文本数据进行分析

文本分析工具箱支持英语,日语,德语和韩文语言。金宝app大多数文本分析工具箱函数与其他语言的文本一起使用。有关更多信息,请参阅语言注意事项

功能

展开全部

ExtractFileText 阅读PDF的文字,微软单词,HTML和纯文本文件
额外的文本 从HTML提取文本
readpdfformdata 从PDF表单中读取数据
WriteTextDocument 将文档写入文本文件
htmltree 解析的HTML树
发现 在HTML树中找到元素
getAttribute 读取HTML树根节点的HTML属性
不见了 找到没有价值的HTML树
细绳 将解析的HTML树转换为字符串
象征性文档 用于文本分析的象征性文档数组
擦除 从文本和文档中删除标点符号
Erasetags 从文本中删除HTML和XML标签
擦除 从文本中删除HTTP和HTTPS URL
删除词 从文档中删除停止单词
删除词 从文档或单词袋模型中删除简短的单词
removelongwords 从文档或单词袋模型中删除长词
删除字 从文档或单词袋模型中删除选定的单词
归一化词 词干或诱人的单词
替换字 更换文档中的单词
替换 在文档中替换n-grams
停止字 停止单词列表
解码 将HTML和XML实体转换为字符
降低 将文档转换为小写
将文档转换为大写
语境 在上下文中搜索单词或n-gram出现的文档
tokendetails 令牌化文档数组中的令牌的详细信息
添加了详细信息 将句子编号添加到文档
AddPartofSpeechDetails 在文档中添加词性标签
Addlemmadetails 将引理形式的令牌形式添加到文档
AddlagumationEtails 将语言标识符添加到文档
添加剂尾尾 将实体标签添加到文档
addtypedetails 将令牌类型详细信息添加到文档
拆分 将文字分为句子
语言 检测文字语言
缩写 普通缩写表
topleveldomains 顶级域名
小词 单袋型号
Bagofngrams n-grams模型
addDocument 将文档添加到字袋或n-grams型号
删除文档 从字袋或n-grams型号中删除文档
删除InfrequentWords 从字袋模型中删除用低计数的单词
删除ininfrequentngram 从n-grams模型中删除很少见的n-grams
removengrams 从n-grams模型中删除n-grams
remove emptimentDocuments 从令牌化的文档阵列,词袋模型或n-grams型号中删除空文档
topkwords 词袋模型或LDA主题中最重要的词语
topkngram 最常见的n-gram
编码 编码文档作为单词或n-gram计数的矩阵
TFIDF 术语频率 - 内部文档频率(TF-IDF)矩阵
加入 结合多个字袋或n-grams型号
正确散布 正确的单词拼写
编辑 查找两个字符串或文档之间的编辑距离
EditDistancesErchener 编辑距离最近的邻居搜索者
Knnsearch 通过编辑距离找到最近的邻居
rangesearch 通过编辑距离范围查找最近的邻居
拆分图 将字符串分为图形
DOCFUN 将功能应用于文档中的单词
附加文件
代替 更换文档中的子字符串
REGEXPREP 使用正则表达式用文档的单词替换文本
doclength 文档数组中的文档长度
DOC2CELL 将文档转换为字符串向量的单元格数组
加入Words 通过加入单词将文档转换为字符串
细绳 将标量文档转换为字符串矢量
textAnalytics.unicode.nfd Unicode分解归一化形式(NFD)
UTF32 Unicode UTF-32字符串表示
字符类别 Unicode字符类别
十六进制 将UTF-32表示为十六进制值
细绳 将UTF-32表示为字符串

话题

进口

从文件中提取文本数据

此示例显示了如何从文本,HTML,Microsoft®Word,PDF,CSV和MicrosoftExcel®文件中提取文本数据,并将其导入MATLAB®进行分析。

解析HTML并提取文本内容

此示例显示了如何解析HTML代码并从特定元素中提取文本内容。

文本分析的数据集

发现各种文本分析任务的数据集。

预处理

准备文本数据进行分析

此示例显示了如何创建一个清洁和预处理文本数据以进行分析的函数。

分析包含表情符号的文本数据

此示例显示了如何分析包含表情符号的文本数据。

在文档中正确拼写

此示例显示了如何使用Hunspell在文档中纠正拼写。

创建用于拼写校正的扩展字典

此示例显示了如何创建用于拼写校正的悬缝扩展字典。

使用编辑距离搜索器创建自定义拼写校正功能

此示例显示了如何使用编辑距离搜索器和已知单词的词汇来纠正拼写。

语言支持金宝app

语言注意事项

有关使用文本分析工具箱功能的信息。

日语支持金宝app

文本分析工具箱中有关日本支持的信息。金宝app

分析日本文本数据

此示例显示了如何使用主题模型导入,准备和分析日本文本数据。

德语支持金宝app

文本分析工具箱中有关德语支持的信息。金宝app

分析德语文本数据

此示例显示了如何使用主题模型导入,准备和分析德语文本数据。

特色示例