文档帮助中心

文本数据准备

导入文本数据到MATLAB^®和它进行预处理分析

文本分析工具箱™包括来自诸如设备日志，新闻，调查，经营者报告，以及社交媒体处理原始文本的工具。使用这些工具来提取文本从流行的文件格式，预处理原始文本，提取单个词或短语多字（正克），转换成文本数值表示，建立统计模型。有关说明如何上手示例，请参见准备文本数据进行分析。

文本分析工具箱支持英语、日语、德语和韩语。金宝app大多数文本分析工具箱函数可以处理来自其他语言的文本。有关更多信息，请参见语言的注意事项。

功能

进出口

`extractFileText`	阅读文本从PDF，微软词、HTML和纯文本文件
`extractHTMLText`	从HTML中提取文本
`readPDFFormData`	从PDF表单读取数据
`writeTextDocument`	写文件，文本文件

HTML解析

`htmlTree`	解析的HTML树
`findElement`	查找HTML元素树
`的getAttribute`	读取HTML树根节点的HTML属性
`ismissing`	发现没有值的HTML树

文档预处理

`tokenizedDocument`	用于文本分析的标记化文档数组
`erasePunctuation`	删除文本和文档中的标点符号
`eraseTags`	从文本中删除HTML和XML标签
`eraseURLs`	删除文本中的HTTP和HTTPS url
`removeStopWords`	从文档中删除停止词
`removeShortWords`	从文件或袋的词模型删除短词
`removeLongWords`	从文件或袋的词模型中取出长字
`removeWords`	从文档或单词包模型中删除选定的单词
`normalizeWords`	茎或lemmatize词
`replaceWords`	替换文档中的单词
`replaceNgrams`	替换文档中的n个字符
`停用词`	停止词列表
`decodeHTMLEntities`	转换HTML和XML实体为字符
`较低的`	将文档转换为小写
`上`	将文档转换为大写

令牌的详细信息

`上下文`	在文档中搜索上下文中出现的单词或n字元
`tokenDetails`	标记化文档数组中的标记的详细信息
`addSentenceDetails`	添加一句号码文件
`addPartOfSpeechDetails`	部分添加的词类标记文件
`addLemmaDetails`	将令牌的引理形式添加到文档中
`addLanguageDetails`	向文档添加语言标识符
`addEntityDetails`	向文档添加实体标记
`addTypeDetails`	向文档添加标记类型细节
`splitSentences`	将文本分成句子
`corpusLanguage`	检测文本的语言
`缩写`	常用缩写表
`topLevelDomains`	顶级域名的列表

单词和n字计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	添加文件袋的词或袋的的N-gram模型
`removeDocument`	从单词袋或n字袋模型中删除文档
`removeInfrequentWords`	从单词包模型中删除数量少的单词
`removeInfrequentNgrams`	从删除很少看到正克一袋的N-gram模型
`removeNgrams`	从n克袋模型中删除n克
`removeEmptyDocuments`	除去从标记化文档阵列空文档，袋的字模型，或袋的的N-gram模型
`topkwords`	最重要的词在词袋模型或LDA主题
`topkngrams`	最常见的字格
`编码`	将文档编码为单词或n元计数矩阵
`tfidf`	术语频率逆文件频率(tf-idf)矩阵
`加入`	组合多个单词袋或n字袋模型

拼写更正和编辑距离

`用语`	单词的正确拼写
`editDistance`	查找两个字符串或文档之间的编辑距离
`editDistanceSearcher`	编辑距离最近的邻居搜索
`knnsearch`	通过编辑距离找到最近的邻居
`rangesearch`	查找编辑距离范围内最近的邻居
`splitGraphemes`	将字符串拆分为字母

文档操作和转换

`docfun`	应用功能在文档中的词
`加`	附加文件
`更换`	替换文档中的子字符串
`regexprep`	使用正则表达式替换文档中的文字
`doclength`	在文件阵列的文件长度
`doc2cell`	将文档转换为字符串向量的单元格数组
`joinWords`	由连词文档转换为字符串
`字符串`	将标量文档转换为字符串向量

主题

进口

提取文本从文件中的数据

这个例子说明了如何从文本，HTML的Microsoft®Word，PDF，CSV和Microsoft Excel档案提取文本数据，并将其导入MATLAB®进行分析。

解析HTML和提取文本内容

这个示例展示了如何解析HTML代码并从特定元素中提取文本内容。

用于文本分析的数据集

发现数据集各种文本分析任务。

预处理

准备文本数据进行分析

这个示例展示了如何创建一个函数来清理和预处理文本数据以便进行分析。

分析包含表情符号的文本数据

这个例子说明了如何分析包含表情符号，文本数据。

文件的正确拼写

这个例子展示了如何使用Hunspell纠正文档中的拼写错误。

创建用于拼写更正的扩展字典

这个例子显示了如何创建一个扩展的hunspell字典拼写校正。

创建自定义拼写更正功能使用编辑距离搜索

这个示例展示了如何使用编辑距离搜索器和已知单词的词汇表纠正拼写。

语言支持金宝app

语言的注意事项

使用文本分析工具箱功能的信息用于其他语言。

日本语言支持金宝app

文本分析工具箱中有关日语支持的信息。金宝app

分析日语文本数据

这个例子说明如何导入，准备和使用主题模型分析日文文本数据。

德语支持金宝app

在文本分析工具箱德国支持的信息。金宝app

分析德语文本数据

这个例子说明如何导入，准备和使用主题模型分析德语文本数据。

特色的例子

提取文本从文件中的数据

提取文本从文件中的数据

从文本，HTML的Microsoft®Word，PDF，CSV和Microsoft Excel档案中提取文本数据，并将其导入MATLAB®进行分析。

开立真实脚本

准备文本数据进行分析

准备文本数据进行分析

创建一个用于清理和预处理文本数据以供分析的函数。

开立真实脚本

分析包含表情符号的文本数据

分析包含表情符号的文本数据

分析包含表情符号的文本数据。

开立真实脚本

文本分析工具箱文档

金宝app

开始学习MATLAB中的文本分析

开始学习MATLAB中的文本分析

立即下载