文本数据准备

导入文本数据到MATLAB^®并对其进行预处理以进行分析

Text Analytics Toolbox™包括用于处理来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本的工具。使用这些工具从流行的文件格式中提取文本，预处理原始文本，提取单个单词或多词短语(n-gram)，将文本转换为数字表示，并构建统计模型。有关如何开始的示例，请参见准备文本数据进行分析．

文本分析工具箱支持语言英语，日语，德语，和韩语金宝app。大多数文本分析工具箱函数可以处理来自其他语言的文本。有关更多信息，请参见语言的注意事项．

功能

全部展开

导入和导出

`extractFileText`	阅读文本从PDF，微软词、HTML和纯文本文件
`extractHTMLText`	从HTML中提取文本
`readPDFFormData`	从PDF表单读取数据
`writeTextDocument`	将文档写入文本文件

HTML解析

`htmlTree`	解析HTML树
`findElement`	在HTML树中查找元素
`getAttribute`	读取HTML树根节点的HTML属性
`ismissing`	查找没有值的HTML树
`字符串`	转换解析的HTML树为字符串

文档预处理

`tokenizedDocument`	用于文本分析的标记化文档数组
`erasePunctuation`	删除文本和文档中的标点符号
`eraseTags`	删除文本中的HTML和XML标签
`eraseURLs`	删除文本中的HTTP和HTTPS url
`removeStopWords`	从文档中删除停止词
`removeShortWords`	从文档或词袋模型中删除短词
`removeLongWords`	从文档或词袋模型中删除长词
`removeWords`	从文档或词袋模型中删除选定的词
`normalizeWords`	词干或词根化
`replaceWords`	替换文档中的单词
`replaceNgrams`	在文档中替换n-g
`stopWords`	停止词表
`decodeHTMLEntities`	将HTML和XML实体转换为字符
`较低的`	将文档转换为小写
`上`	将文档转换为大写

令牌的细节

`上下文`	在文档中搜索上下文中出现的单词或n-gram
`tokenDetails`	令牌化文档数组中令牌的详细信息
`addSentenceDetails`	在文档中添加句子编号
`addPartOfSpeechDetails`	在文档中添加词性标签
`addLemmaDetails`	向文档添加标记的引理形式
`addLanguageDetails`	向文档添加语言标识符
`addEntityDetails`	向文档添加实体标记
`addTypeDetails`	向文档添加令牌类型细节
`splitSentences`	将文本分割成句子
`corpusLanguage`	文本检测语言
`缩写`	常用缩略语表
`topLevelDomains`	顶级域名列表

单词和N-Gram计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	将文档添加到bag-of-words或bag-of-n-grams模型
`removeDocument`	从单词袋或n-gram袋模型中删除文档
`removeInfrequentWords`	从单词袋模型中删除低计数的单词
`removeInfrequentNgrams`	从包-n-grams模型中删除不常见的n-g
`removeNgrams`	从包-n-grams模型中删除n-g
`removeEmptyDocuments`	从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
`topkwords`	单词袋模型或LDA主题中最重要的单词
`topkngrams`	最常见的字格
`编码`	将文档编码为单词或n元计数矩阵
`tfidf`	术语频率-反文档频率(tf-idf)矩阵
`加入`	组合多个bag-of-words或bag-of-n-grams模型

拼写纠正和编辑距离

`用语`	单词的正确拼写
`editDistance`	查找两个字符串或文档之间的编辑距离
`editDistanceSearcher`	编辑距离最近的邻居搜索器
`knnsearch`	通过编辑距离找到最近的邻居
`rangesearch`	通过编辑距离范围找到最近的邻居
`splitGraphemes`	将字符串拆分为字母

文档操作和转换

`docfun`	将功能应用于文档中的单词
`+`	附加文件
`取代`	替换文档中的子字符串
`regexprep`	使用正则表达式替换文档单词中的文本
`doclength`	文档数组中文档的长度
`doc2cell`	将文档转换为字符串向量的单元格数组
`joinWords`	通过连接单词将文档转换为字符串
`字符串`	将标量文档转换为字符串向量

Unicode

`textanalytics.unicode.nfd`	Unicode分解的规范化形式(NFD)
`UTF32`	Unicode UTF-32字符串表示
`characterCategories`	Unicode字符类别
`十六进制`	将UTF-32表示转换为十六进制值
`字符串`	将UTF-32表示转换为字符串