文档帮助中心文档

文本数据准备

将文本数据导入MATLAB^®并预处理以进行分析

Text Analytics Toolbox™包括用于处理来自设备日志，新闻提要，调查，操作员报告和社交媒体等原始文本的工具。使用这些工具从流行的文件格式，预处理原始文本，提取单个单词或多字短语（n-gram），将文本转换为数值表示并构建统计模型。有关显示如何入门的示例，请参阅准备文本数据进行分析。

文本分析工具箱支持英语，日语，德语和韩文语言。金宝app大多数文本分析工具箱函数与其他语言的文本一起使用。有关更多信息，请参阅语言注意事项。

功能

进出口

`ExtractFileText`	阅读PDF的文字，微软单词，HTML和纯文本文件
`额外的文本`	从HTML提取文本
`readpdfformdata`	从PDF表单中读取数据
`WriteTextDocument`	将文档写入文本文件

HTML解析

`htmltree`	解析的HTML树
`发现`	在HTML树中找到元素
`getAttribute`	读取HTML树根节点的HTML属性
`不见了`	找到没有价值的HTML树
`细绳`	将解析的HTML树转换为字符串

文件预处理

`象征性文档`	用于文本分析的象征性文档数组
`擦除`	从文本和文档中删除标点符号
`Erasetags`	从文本中删除HTML和XML标签
`擦除`	从文本中删除HTTP和HTTPS URL
`删除词`	从文档中删除停止单词
`删除词`	从文档或单词袋模型中删除简短的单词
`removelongwords`	从文档或单词袋模型中删除长词
`删除字`	从文档或单词袋模型中删除选定的单词
`归一化词`	词干或诱人的单词
`替换字`	更换文档中的单词
`替换`	在文档中替换n-grams
`停止字`	停止单词列表
`解码`	将HTML和XML实体转换为字符
`降低`	将文档转换为小写
`上`	将文档转换为大写

令牌细节

`语境`	在上下文中搜索单词或n-gram出现的文档
`tokendetails`	令牌化文档数组中的令牌的详细信息
`添加了详细信息`	将句子编号添加到文档
`AddPartofSpeechDetails`	在文档中添加词性标签
`Addlemmadetails`	将引理形式的令牌形式添加到文档
`AddlagumationEtails`	将语言标识符添加到文档
`添加剂尾尾`	将实体标签添加到文档
`addtypedetails`	将令牌类型详细信息添加到文档
`拆分`	将文字分为句子
`语言`	检测文字语言
`缩写`	普通缩写表
`topleveldomains`	顶级域名

单词和n-gram计数

`小词`	单袋型号
`Bagofngrams`	n-grams模型
`addDocument`	将文档添加到字袋或n-grams型号
`删除文档`	从字袋或n-grams型号中删除文档
`删除InfrequentWords`	从字袋模型中删除用低计数的单词
`删除ininfrequentngram`	从n-grams模型中删除很少见的n-grams
`removengrams`	从n-grams模型中删除n-grams
`remove emptimentDocuments`	从令牌化的文档阵列，词袋模型或n-grams型号中删除空文档
`topkwords`	词袋模型或LDA主题中最重要的词语
`topkngram`	最常见的n-gram
`编码`	编码文档作为单词或n-gram计数的矩阵
`TFIDF`	术语频率 - 内部文档频率（TF-IDF）矩阵
`加入`	结合多个字袋或n-grams型号

拼写校正和编辑距离

`正确散布`	正确的单词拼写
`编辑`	查找两个字符串或文档之间的编辑距离
`EditDistancesErchener`	编辑距离最近的邻居搜索者
`Knnsearch`	通过编辑距离找到最近的邻居
`rangesearch`	通过编辑距离范围查找最近的邻居
`拆分图`	将字符串分为图形

文档操纵和转换

`DOCFUN`	将功能应用于文档中的单词
`加`	附加文件
`代替`	更换文档中的子字符串
`REGEXPREP`	使用正则表达式用文档的单词替换文本
`doclength`	文档数组中的文档长度
`DOC2CELL`	将文档转换为字符串向量的单元格数组
`加入Words`	通过加入单词将文档转换为字符串
`细绳`	将标量文档转换为字符串矢量

Unicode

`textAnalytics.unicode.nfd`	Unicode分解归一化形式（NFD）
`UTF32`	Unicode UTF-32字符串表示
`字符类别`	Unicode字符类别
`十六进制`	将UTF-32表示为十六进制值
`细绳`	将UTF-32表示为字符串

话题

进口

从文件中提取文本数据

此示例显示了如何从文本，HTML，Microsoft®Word，PDF，CSV和MicrosoftExcel®文件中提取文本数据，并将其导入MATLAB®进行分析。

解析HTML并提取文本内容

此示例显示了如何解析HTML代码并从特定元素中提取文本内容。

文本分析的数据集

发现各种文本分析任务的数据集。

预处理

准备文本数据进行分析

此示例显示了如何创建一个清洁和预处理文本数据以进行分析的函数。

分析包含表情符号的文本数据

此示例显示了如何分析包含表情符号的文本数据。

在文档中正确拼写

此示例显示了如何使用Hunspell在文档中纠正拼写。

创建用于拼写校正的扩展字典

此示例显示了如何创建用于拼写校正的悬缝扩展字典。

使用编辑距离搜索器创建自定义拼写校正功能

此示例显示了如何使用编辑距离搜索器和已知单词的词汇来纠正拼写。

语言支持金宝app

语言注意事项

有关使用文本分析工具箱功能的信息。

日语支持金宝app

文本分析工具箱中有关日本支持的信息。金宝app

分析日本文本数据

此示例显示了如何使用主题模型导入，准备和分析日本文本数据。

德语支持金宝app

文本分析工具箱中有关德语支持的信息。金宝app

分析德语文本数据

此示例显示了如何使用主题模型导入，准备和分析德语文本数据。

特色示例

从文件中提取文本数据

从文件中提取文本数据

从文本，HTML，Microsoft®Word，PDF，CSV和MicrosoftExcel®文件中提取文本数据，并将其导入MATLAB®进行分析。

打开实时脚本

准备文本数据进行分析

准备文本数据进行分析

创建一个清洁和预处理文本数据以进行分析的函数。

打开实时脚本

分析包含表情符号的文本数据

分析包含表情符号的文本数据

分析包含表情符号的文本数据。

打开实时脚本

文本分析工具箱文档

金宝app

开始使用MATLAB中的文本分析

开始使用MATLAB中的文本分析

现在下载