文本数据准备

将文本数据导入MATLAB^®并对其进行预处理以进行分析

Text Analytics Toolbox™包括用于处理来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本的工具。使用这些工具从流行的文件格式中提取文本，预处理原始文本，提取单个单词或多词短语(n-gram)，将文本转换为数字表示，并构建统计模型。有关如何开始的示例，请参见准备分析的文本数据。

Text Analytics Toolbox支金宝app持英语，日语，德语和韩语。大多数文本分析工具箱功能与其他语言的文本一起工作。有关更多信息，请参阅语言考虑因素。

职能

展开全部

导入和导出

`提取物文字`	阅读PDF的文本，微软单词，html和纯文本文件
`extracthtmltext.`	从HTML中提取文本
`readpdfformdata.`	从PDF表单中读取数据
`WriteTextDocument.`	将文档写入文本文件

HTML解析

`htmltree.`	解析HTML树
`findElement`	在HTML树中查找元素
`getAttribute`	读取HTML树根节点的HTML属性
`不见了`	查找没有值的HTML树
`细绳`	转换解析的HTML树为字符串

文档预处理

`tokenizedDocument`	文本分析的授权文档数组
`erasePunctuation`	从文本和文档中擦除标点符号
`eraseTags`	删除文本中的HTML和XML标签
`eraseulls.`	从文本中擦除HTTP和HTTPS URL
`removeStopWords`	从文档中删除停止单词
`removeShortWords`	从文档或词袋模型中删除短词
`removelongwords.`	从文档或词袋模型中删除长词
`删除`	从文档或单词袋式模型中删除所选单词
`正常化字`	词干或词根化
`replaceWords`	替换文档中的单词
`replaceNgrams`	在文档中替换n-gram
`stopWords`	停止单词
`解码码`	将HTML和XML实体转换为字符
`降低`	将文档转换为小写
`上`	将文档转换为大写

令牌的细节

`语境`	在上下文中搜索单词或n-gram出现的文档
`令敬当`	令牌化文档阵列中的令牌细节
`addSentenceDetails`	在文档中添加句子编号
`addPartOfSpeechDetails`	在文档中添加词性标签
`addlemmadetails.`	将Lemma形式的令牌形式添加到文件中
`addLanguageDetails`	为文档添加语言标识符
`addEntityDetails`	将实体标记添加到文档
`addTypeDetails`	将令牌类型详细信息添加到文档
`诽谤`	将文本分成句子
`corpusLanguage`	文本检测语言
`缩写`	普通缩写表
`topLevelDomains`	顶级域名列表

单词和n-gram计数

`Bagofwords.`	袋式模型
`bagofngrams.`	袋式袋型号
`addDocument`	将文档添加到bag-of-words或bag-of-n-grams模型
`removeDocument`	从单词袋或n-r克模型中删除文档
`removeinfrequentwords.`	从单词袋式模型中删除具有低计数的单词
`removeInfrequentNgrams`	从包-n-grams模型中删除不常见的n-g
`Removenrams.`	从包-n-grams模型中删除n-g
`删除程序`	从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
`topkwords.`	袋式模型或LDA主题中最重要的单词
`topkngrams`	最常见的n-grams
`编码`	将文档编码为单词或n-gram计数的矩阵
`TFIDF.`	术语频率 - 逆文档频率（TF-IDF）矩阵
`加入`	结合多个单词或袋式袋式型号

拼写校正和编辑距离

`矫正力`	正确拼写单词
`editdistance.`	查找两个字符串或文档之间的编辑距离
`editDistanceSearcher`	编辑距离最近邻南搜索者
`knnsearch.`	通过编辑距离查找最近的邻居
`rangesearch.`	通过编辑距离范围找到最近的邻居
`分裂emes.`	将字符串拆分为图形

文档操作和转换

`docfun`	将功能应用于文档中的单词
`+`	追加文件
`取代`	在文档中替换子字符串
`regexprep.`	使用正则表达式替换文档的文字文本
`Doclencth.`	文档数组中文档的长度
`doc2cell`	将文档转换为字符串向量的单元格数组
`joinWords`	通过连接单词将文档转换为字符串
`细绳`	将标量文档转换为字符串向量

unicode.

`textanalytics.unicode.nfd`	Unicode分解标准化形式（NFD）
`UTF32.`	Unicode UTF-32字符串表示
`charface类别`	Unicode字符类别
`十六进制`	将UTF-32表示到十六进制值
`细绳`	将UTF-32表示转换为字符串