文本数据准备

导入文本数据到MATLAB®和它进行预处理分析

文本分析工具箱™包括来自诸如设备日志,新闻,调查,经营者报告,以及社交媒体处理原始文本的工具。使用这些工具来提取文本从流行的文件格式,预处理原始文本,提取单个词或短语多字(正克),转换成文本数值表示,建立统计模型。有关说明如何上手示例,请参见准备文本数据进行分析

文本分析工具箱支持英语、日语、德语和韩语。金宝app大多数文本分析工具箱函数可以处理来自其他语言的文本。有关更多信息,请参见语言的注意事项

功能

全部展开

extractFileText 阅读文本从PDF,微软、HTML和纯文本文件
extractHTMLText 从HTML中提取文本
readPDFFormData 从PDF表单读取数据
writeTextDocument 写文件,文本文件
htmlTree 解析的HTML树
findElement 查找HTML元素树
的getAttribute 读取HTML树根节点的HTML属性
ismissing 发现没有值的HTML树
tokenizedDocument 用于文本分析的标记化文档数组
erasePunctuation 删除文本和文档中的标点符号
eraseTags 从文本中删除HTML和XML标签
eraseURLs 删除文本中的HTTP和HTTPS url
removeStopWords 从文档中删除停止词
removeShortWords 从文件或袋的词模型删除短词
removeLongWords 从文件或袋的词模型中取出长字
removeWords 从文档或单词包模型中删除选定的单词
normalizeWords 茎或lemmatize词
replaceWords 替换文档中的单词
replaceNgrams 替换文档中的n个字符
停用词 停止词列表
decodeHTMLEntities 转换HTML和XML实体为字符
较低的 将文档转换为小写
将文档转换为大写
上下文 在文档中搜索上下文中出现的单词或n字元
tokenDetails 标记化文档数组中的标记的详细信息
addSentenceDetails 添加一句号码文件
addPartOfSpeechDetails 部分添加的词类标记文件
addLemmaDetails 将令牌的引理形式添加到文档中
addLanguageDetails 向文档添加语言标识符
addEntityDetails 向文档添加实体标记
addTypeDetails 向文档添加标记类型细节
splitSentences 将文本分成句子
corpusLanguage 检测文本的语言
缩写 常用缩写表
topLevelDomains 顶级域名的列表
bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument 添加文件袋的词或袋的的N-gram模型
removeDocument 从单词袋或n字袋模型中删除文档
removeInfrequentWords 从单词包模型中删除数量少的单词
removeInfrequentNgrams 从删除很少看到正克一袋的N-gram模型
removeNgrams 从n克袋模型中删除n克
removeEmptyDocuments 除去从标记化文档阵列空文档,袋的字模型,或袋的的N-gram模型
topkwords 最重要的词在词袋模型或LDA主题
topkngrams 最常见的字格
编码 将文档编码为单词或n元计数矩阵
tfidf 术语频率逆文件频率(tf-idf)矩阵
加入 组合多个单词袋或n字袋模型
用语 单词的正确拼写
editDistance 查找两个字符串或文档之间的编辑距离
editDistanceSearcher 编辑距离最近的邻居搜索
knnsearch 通过编辑距离找到最近的邻居
rangesearch 查找编辑距离范围内最近的邻居
splitGraphemes 将字符串拆分为字母
docfun 应用功能在文档中的词
附加文件
更换 替换文档中的子字符串
regexprep 使用正则表达式替换文档中的文字
doclength 在文件阵列的文件长度
doc2cell 将文档转换为字符串向量的单元格数组
joinWords 由连词文档转换为字符串
字符串 将标量文档转换为字符串向量

主题

进口

提取文本从文件中的数据

这个例子说明了如何从文本,HTML的Microsoft®Word,PDF,CSV和Microsoft Excel档案提取文本数据,并将其导入MATLAB®进行分析。

解析HTML和提取文本内容

这个示例展示了如何解析HTML代码并从特定元素中提取文本内容。

用于文本分析的数据集

发现数据集各种文本分析任务。

预处理

准备文本数据进行分析

这个示例展示了如何创建一个函数来清理和预处理文本数据以便进行分析。

分析包含表情符号的文本数据

这个例子说明了如何分析包含表情符号,文本数据。

文件的正确拼写

这个例子展示了如何使用Hunspell纠正文档中的拼写错误。

创建用于拼写更正的扩展字典

这个例子显示了如何创建一个扩展的hunspell字典拼写校正。

创建自定义拼写更正功能使用编辑距离搜索

这个示例展示了如何使用编辑距离搜索器和已知单词的词汇表纠正拼写。

语言支持金宝app

语言的注意事项

使用文本分析工具箱功能的信息用于其他语言。

日本语言支持金宝app

文本分析工具箱中有关日语支持的信息。金宝app

分析日语文本数据

这个例子说明如何导入,准备和使用主题模型分析日文文本数据。

德语支持金宝app

在文本分析工具箱德国支持的信息。金宝app

分析德语文本数据

这个例子说明如何导入,准备和使用主题模型分析德语文本数据。

特色的例子