主要内容

文本数据准备

将文本数据导入MATLAB®并对其进行预处理以进行分析

Text Analytics Toolbox™包括用于处理来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本的工具。使用这些工具从流行的文件格式中提取文本,预处理原始文本,提取单个单词或多词短语(n-gram),将文本转换为数字表示,并构建统计模型。有关如何开始的示例,请参见准备文本数据进行分析.

文本分析工具箱支持英语、日语、德语和韩语。大多金宝app数文本分析工具箱函数使用来自其他语言的文本。有关详细信息,请参阅语言的注意事项.

功能

全部展开

提取文件文本 阅读PDF中的文本,微软单词、HTML和纯文本文件
提取HtmlText 从HTML中提取文本
ReadPdformData 从PDF表单读取数据
writeTextDocument 将文档写入文本文件
htmlTree 解析HTML树
findElement 在HTML树中查找元素
getAttribute 读取HTML树的根节点的HTML属性
伊斯米辛 查找没有值的HTML树
一串 转换解析的HTML树为字符串
tokenizedDocument 用于文本分析的标记化文档数组
erasePunctuation 从文本和文档中删除标点符号
eraseTags 删除文本中的HTML和XML标签
删除URL 从文本中删除HTTP和HTTPS URL
removeStopWords 从文档中删除停止字
removeShortWords 从文档或词袋模型中删除短词
removeLongWords 从文档或词袋模型中删除长词
移除词 从文档或字包模型中删除所选单词
正常化森林 词干或词根化
replaceWords 替换文档中的单词
replaceNgrams 替换文档中的n-grams
stopWords 停止词列表
破译 将HTML和XML实体转换为字符
降低 将文档转换为小写
上面的 将文档转换为大写
上下文 在上下文中搜索文档中出现的单词或n-gram
令牌详细信息 标记化文档数组中标记的详细信息
addSentenceDetails 在文档中添加句子编号
addPartOfSpeechDetails 在文档中添加词性标签
Addlemmadetals 向文档中添加标记的引理形式
addLanguageDetails 向文档中添加语言标识符
addEntityDetails 向文档添加实体标记
addTypeDetails 向文档中添加令牌类型详细信息
分句 把文本分成句子
corpusLanguage 文本检测语言
缩写 常用缩略语表
topLevelDomains 顶级域名列表
巴格沃兹 文字袋模型
巴戈夫克 n克袋模型
addDocument 将文档添加到bag-of-words或bag-of-n-grams模型
removeDocument 从文字袋或n字袋模型中删除文档
删除常用词 从单词包模型中删除计数较低的单词
removeInfrequentNgrams 从包-n-grams模型中删除不常见的n-g
重塑图 从包-n-grams模型中删除n-g
删除空文档 从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
托克沃兹 单词袋模型或LDA主题中最重要的单词
topkngrams 最频繁n-gram
编码 将文档编码为单词或n克计数矩阵
词频-逆向文件频率 术语频率–逆文档频率(tf idf)矩阵
参加 组合多袋文字或多袋n-grams模型
拼写正确 正确拼写单词
编辑距离 查找两个字符串或文档之间的编辑距离
editDistanceSearcher 编辑距离最近邻搜索器
knnsearch 通过编辑距离查找最近的邻居
范围搜索 通过编辑距离范围找到最近的邻居
分裂体 将字符串拆分为字母
docfun 将功能应用于文档中的单词
+ 附加文档
取代 替换文档中的子字符串
regexprep 使用正则表达式替换文档中的文字
doclength 文档数组中文档的长度
doc2cell 将文档转换为字符串向量的单元格数组
joinWords 通过连接单词将文档转换为字符串
一串 将标量文档转换为字符串向量
textanalytics.unicode.nfd Unicode分解规范化格式(NFD)
UTF32 Unicode UTF-32字符串表示法
字符类别 Unicode字符类别
十六进制 将UTF-32表示形式转换为十六进制值
一串 将UTF-32表示转换为字符串

话题

进口

从文件中提取文本数据

这个例子展示了如何从文本、HTML、Microsoft®Word、PDF、CSV和Microsoft Excel®文件中提取文本数据,并将其导入MATLAB®进行分析。

解析HTML和提取文本内容

此示例演示如何解析HTML代码并从特定元素中提取文本内容。

文本分析的数据集

为各种文本分析任务发现数据集。

预处理

准备文本数据进行分析

此示例演示如何创建一个函数,用于清理和预处理文本数据以进行分析。

分析包含表情符号的文本数据

这个例子展示了如何分析包含表情符号的文本数据。

文件中的正确拼写

此示例演示如何使用拼写更正文档中的拼写。

创建用于拼写更正的扩展词典

这个示例展示了如何创建一个Hunspell扩展字典来进行拼写校正。

使用编辑距离搜索器创建自定义拼写更正功能

此示例演示如何使用编辑距离搜索器和已知单词的词汇表更正拼写。

语言支持金宝app

语言的注意事项

有关为其他语言使用文本分析工具箱功能的信息。

日语支持金宝app

文本分析工具箱中的日语支持信息。金宝app

分析日语文本数据

这个示例展示了如何使用主题模型导入、准备和分析日语文本数据。

德国语言支持金宝app

关于文本分析工具箱中的德语支持的信息。金宝app

分析德语文本数据

这个示例展示了如何使用主题模型导入、准备和分析德语文本数据。

特色实例