文档帮助中心

文本数据准备

导入文本数据到MATLAB^®和它进行预处理分析

文本分析工具箱™包括来自诸如设备日志，新闻，调查，经营者报告，以及社交媒体处理原始文本的工具。使用这些工具来提取文本从流行的文件格式，预处理原始文本，提取单个词或短语多字（正克），转换成文本数值表示，建立统计模型。有关说明如何上手示例，请参见准备文本数据的分析。

文本分析工具箱支持英语，日语，德语和韩语。金宝app大多数文本分析工具箱功能与其他语言的文本。欲了解更多信息，请参阅语言的注意事项。

功能

进出口

`extractFileText`	从PDF阅读文本，微软字，HTML和纯文本文件
`extractHTMLText`	从HTML中提取文本
`readPDFFormData`	读取PDF表单数据
`writeTextDocument`	写文件，文本文件

HTML解析

`htmlTree`	解析的HTML树
`findElement`	查找HTML元素树
`的getAttribute`	HTML树的根节点的读取HTML属性
`不见了`	发现没有值的HTML树

文档预处理

`tokenizedDocument`	文本分析记号化文档的数组
`erasePunctuation`	从文本和文件删除标点
`eraseTags`	从文本中删除HTML和XML标签
`eraseURLs`	删除HTTP和HTTPS网址，文本
`removeStopWords`	从文档中删除停用词
`removeShortWords`	从文件或袋的词模型删除短词
`removeLongWords`	从文件或袋的词模型中取出长字
`removeWords`	从文件或袋的词模型删除所选的词
`normalizeWords`	茎或lemmatize词
`replaceWords`	替换文档的单词
`replaceNgrams`	更换正克文件
`停用词`	停用词列表
`decodeHTMLEntities`	转换HTML和XML实体为字符
`降低`	将文档转换为小写
`上`	将文档转换为大写

令牌的详细信息

`上下文`	搜索在上下文中的词或正克出现文件
`tokenDetails`	在标记化文档阵列令牌的细节
`addSentenceDetails`	添加一句号码文件
`addPartOfSpeechDetails`	部分添加的词类标记文件
`addLemmaDetails`	加入令牌引理形式的文件
`addLanguageDetails`	添加语言标识符文件
`addEntityDetails`	添加实体标记文件
`addTypeDetails`	添加标记类型的细节文件
`splitSentences`	拆分文本成句子
`corpusLanguage`	检测文本的语言
`缩写`	常见缩写表
`topLevelDomains`	顶级域名的列表

Word和n元计数

`bagOfWords`	一袋字模式
`bagOfNgrams`	一袋的N-gram模型
`addDocument`	添加文件袋的词或袋的的N-gram模型
`removeDocument`	取下袋的词或袋的的N-gram模型文件
`removeInfrequentWords`	从袋的词模型移除具有低计数的话
`removeInfrequentNgrams`	从删除很少看到正克一袋的N-gram模型
`removeNgrams`	从拆下正克一袋的N-gram模型
`removeEmptyDocuments`	除去从标记化文档阵列空文档，袋的字模型，或袋的的N-gram模型
`topkwords`	在袋的词模型或LDA主题最重要的词
`topkngrams`	最常见的正克
`编码`	编码文件，如Word或正克数的矩阵
`TFIDF`	词频 - 逆文档频率（TF-IDF）矩阵
`加入`	将多个袋的词或袋的的N-gram模型

拼写校正和编辑距离

`correctSpelling`	词的正确拼写
`editDistance`	查找两个字符串或文档之间的编辑距离
`editDistanceSearcher`	最近的邻居搜索编辑距离
`knnsearch`	查找编辑距离最近的邻居
`rangesearch`	查找编辑距离范围内最近的邻居
`splitGraphemes`	字符串分割到字形

文档操作和转换

`docfun`	应用功能在文档中的词
`加`	附加文件
`更换`	替换文件子
`regexprep`	使用正则表达式的文件的话替换文本
`doclength`	在文件阵列的文件长度
`doc2cell`	文件转换为字符串向量的单元阵列
`joinWords`	由连词文档转换为字符串
`串`	转换标文件串矢量

主题

进口

提取文本从文件中的数据

这个例子说明了如何从文本，HTML的Microsoft®Word，PDF，CSV和Microsoft Excel档案提取文本数据，并将其导入MATLAB®进行分析。

解析HTML和提取文本内容

此示例示出了如何解析HTML代码并提取从特定元件的文本内容。

数据设置文本分析

发现数据集各种文本分析任务。

预处理

准备文本数据的分析

此示例示出了如何创建一个功能，其清洗并预处理的文本数据进行分析。

分析文本数据包含表情符号

这个例子说明了如何分析包含表情符号，文本数据。

在文档中正确的拼写

这个例子说明了如何使用中的hunspell文件正确拼写。

对于拼写检查创建扩展字典

这个例子显示了如何创建一个扩展的hunspell字典拼写校正。

创建自定义拼写检查功能使用编辑距离搜索者

这个例子展示了如何正确拼写使用编辑距离和搜索的已知字的词汇。

语言支持金宝app

语言的注意事项

使用文本分析工具箱功能的信息用于其他语言。

日语支持金宝app

在文本分析工具箱日本支持的信息。金宝app

日本分析文本数据

这个例子说明如何导入，准备和使用主题模型分析日文文本数据。

德语支持金宝app

在文本分析工具箱德国支持的信息。金宝app

德国分析文本数据

这个例子说明如何导入，准备和使用主题模型分析德语文本数据。

精选示例

提取文本从文件中的数据

提取文本从文件中的数据

从文本，HTML的Microsoft®Word，PDF，CSV和Microsoft Excel档案中提取文本数据，并将其导入MATLAB®进行分析。

开立真实脚本

准备文本数据的分析

准备文本数据的分析

创建功能，清洁和预处理的文本数据进行分析。

开立真实脚本

分析文本数据包含表情符号

分析文本数据包含表情符号

分析包含表情符号，文本数据。

开立真实脚本

文本分析工具箱文档

金宝app

入门在MATLAB文本分析

现在就下载