文本数据准备

将文本数据导入MATLAB^®并对其进行预处理以进行分析

Text Analytics Toolbox™包括用于处理来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本的工具。使用这些工具从流行的文件格式中提取文本，预处理原始文本，提取单个单词或多词短语(n-gram)，将文本转换为数字表示，并构建统计模型。有关如何开始的示例，请参见准备文本数据进行分析.

文本分析工具箱支持英语、日语、德语和韩语。大多金宝app数文本分析工具箱函数使用来自其他语言的文本。有关详细信息，请参阅语言的注意事项.

功能

全部展开

导入和导出

`提取文件文本`	阅读PDF中的文本，微软单词、HTML和纯文本文件
`提取HtmlText`	从HTML中提取文本
`ReadPdformData`	从PDF表单读取数据
`writeTextDocument`	将文档写入文本文件

HTML解析

`htmlTree`	解析HTML树
`findElement`	在HTML树中查找元素
`getAttribute`	读取HTML树的根节点的HTML属性
`伊斯米辛`	查找没有值的HTML树
`一串`	转换解析的HTML树为字符串

文档预处理

`tokenizedDocument`	用于文本分析的标记化文档数组
`erasePunctuation`	从文本和文档中删除标点符号
`eraseTags`	删除文本中的HTML和XML标签
`删除URL`	从文本中删除HTTP和HTTPS URL
`removeStopWords`	从文档中删除停止字
`removeShortWords`	从文档或词袋模型中删除短词
`removeLongWords`	从文档或词袋模型中删除长词
`移除词`	从文档或字包模型中删除所选单词
`正常化森林`	词干或词根化
`replaceWords`	替换文档中的单词
`replaceNgrams`	替换文档中的n-grams
`stopWords`	停止词列表
`破译`	将HTML和XML实体转换为字符
`降低`	将文档转换为小写
`上面的`	将文档转换为大写

令牌的细节

`上下文`	在上下文中搜索文档中出现的单词或n-gram
`令牌详细信息`	标记化文档数组中标记的详细信息
`addSentenceDetails`	在文档中添加句子编号
`addPartOfSpeechDetails`	在文档中添加词性标签
`Addlemmadetals`	向文档中添加标记的引理形式
`addLanguageDetails`	向文档中添加语言标识符
`addEntityDetails`	向文档添加实体标记
`addTypeDetails`	向文档中添加令牌类型详细信息
`分句`	把文本分成句子
`corpusLanguage`	文本检测语言
`缩写`	常用缩略语表
`topLevelDomains`	顶级域名列表

字与N克计数

`巴格沃兹`	文字袋模型
`巴戈夫克`	n克袋模型
`addDocument`	将文档添加到bag-of-words或bag-of-n-grams模型
`removeDocument`	从文字袋或n字袋模型中删除文档
`删除常用词`	从单词包模型中删除计数较低的单词
`removeInfrequentNgrams`	从包-n-grams模型中删除不常见的n-g
`重塑图`	从包-n-grams模型中删除n-g
`删除空文档`	从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
`托克沃兹`	单词袋模型或LDA主题中最重要的单词
`topkngrams`	最频繁n-gram
`编码`	将文档编码为单词或n克计数矩阵
`词频-逆向文件频率`	术语频率–逆文档频率（tf idf）矩阵
`参加`	组合多袋文字或多袋n-grams模型

拼写更正和编辑距离

`拼写正确`	正确拼写单词
`编辑距离`	查找两个字符串或文档之间的编辑距离
`editDistanceSearcher`	编辑距离最近邻搜索器
`knnsearch`	通过编辑距离查找最近的邻居
`范围搜索`	通过编辑距离范围找到最近的邻居
`分裂体`	将字符串拆分为字母

文档操作和转换

`docfun`	将功能应用于文档中的单词
`+`	附加文档
`取代`	替换文档中的子字符串
`regexprep`	使用正则表达式替换文档中的文字
`doclength`	文档数组中文档的长度
`doc2cell`	将文档转换为字符串向量的单元格数组
`joinWords`	通过连接单词将文档转换为字符串
`一串`	将标量文档转换为字符串向量

统一码

`textanalytics.unicode.nfd`	Unicode分解规范化格式（NFD）
`UTF32`	Unicode UTF-32字符串表示法
`字符类别`	Unicode字符类别
`十六进制`	将UTF-32表示形式转换为十六进制值
`一串`	将UTF-32表示转换为字符串