文本数据准备

导入文本数据到MATLAB®和它进行预处理分析

文本分析工具箱™包括来自诸如设备日志,新闻,调查,经营者报告,以及社交媒体处理原始文本的工具。使用这些工具来提取文本从流行的文件格式,预处理原始文本,提取单个词或短语多字(正克),转换成文本数值表示,建立统计模型。有关说明如何上手示例,请参见准备文本数据的分析

文本分析工具箱支持英语,日语,德语和韩语。金宝app大多数文本分析工具箱功能与其他语言的文本。欲了解更多信息,请参阅语言的注意事项

功能

展开全部

extractFileText 从PDF阅读文本,微软,HTML和纯文本文件
extractHTMLText 从HTML中提取文本
readPDFFormData 读取PDF表单数据
writeTextDocument 写文件,文本文件
htmlTree 解析的HTML树
findElement 查找HTML元素树
的getAttribute HTML树的根节点的读取HTML属性
不见了 发现没有值的HTML树
tokenizedDocument 文本分析记号化文档的数组
erasePunctuation 从文本和文件删除标点
eraseTags 从文本中删除HTML和XML标签
eraseURLs 删除HTTP和HTTPS网址,文本
removeStopWords 从文档中删除停用词
removeShortWords 从文件或袋的词模型删除短词
removeLongWords 从文件或袋的词模型中取出长字
removeWords 从文件或袋的词模型删除所选的词
normalizeWords 茎或lemmatize词
replaceWords 替换文档的单词
replaceNgrams 更换正克文件
停用词 停用词列表
decodeHTMLEntities 转换HTML和XML实体为字符
降低 将文档转换为小写
将文档转换为大写
上下文 搜索在上下文中的词或正克出现文件
tokenDetails 在标记化文档阵列令牌的细节
addSentenceDetails 添加一句号码文件
addPartOfSpeechDetails 部分添加的词类标记文件
addLemmaDetails 加入令牌引理形式的文件
addLanguageDetails 添加语言标识符文件
addEntityDetails 添加实体标记文件
addTypeDetails 添加标记类型的细节文件
splitSentences 拆分文本成句子
corpusLanguage 检测文本的语言
缩写 常见缩写表
topLevelDomains 顶级域名的列表
bagOfWords 一袋字模式
bagOfNgrams 一袋的N-gram模型
addDocument 添加文件袋的词或袋的的N-gram模型
removeDocument 取下袋的词或袋的的N-gram模型文件
removeInfrequentWords 从袋的词模型移除具有低计数的话
removeInfrequentNgrams 从删除很少看到正克一袋的N-gram模型
removeNgrams 从拆下正克一袋的N-gram模型
removeEmptyDocuments 除去从标记化文档阵列空文档,袋的字模型,或袋的的N-gram模型
topkwords 在袋的词模型或LDA主题最重要的词
topkngrams 最常见的正克
编码 编码文件,如Word或正克数的矩阵
TFIDF 词频 - 逆文档频率(TF-IDF)矩阵
加入 将多个袋的词或袋的的N-gram模型
correctSpelling 词的正确拼写
editDistance 查找两个字符串或文档之间的编辑距离
editDistanceSearcher 最近的邻居搜索编辑距离
knnsearch 查找编辑距离最近的邻居
rangesearch 查找编辑距离范围内最近的邻居
splitGraphemes 字符串分割到字形
docfun 应用功能在文档中的词
附加文件
更换 替换文件子
regexprep 使用正则表达式的文件的话替换文本
doclength 在文件阵列的文件长度
doc2cell 文件转换为字符串向量的单元阵列
joinWords 由连词文档转换为字符串
转换标文件串矢量

主题

进口

提取文本从文件中的数据

这个例子说明了如何从文本,HTML的Microsoft®Word,PDF,CSV和Microsoft Excel档案提取文本数据,并将其导入MATLAB®进行分析。

解析HTML和提取文本内容

此示例示出了如何解析HTML代码并提取从特定元件的文本内容。

数据设置文本分析

发现数据集各种文本分析任务。

预处理

准备文本数据的分析

此示例示出了如何创建一个功能,其清洗并预处理的文本数据进行分析。

分析文本数据包含表情符号

这个例子说明了如何分析包含表情符号,文本数据。

在文档中正确的拼写

这个例子说明了如何使用中的hunspell文件正确拼写。

对于拼写检查创建扩展字典

这个例子显示了如何创建一个扩展的hunspell字典拼写校正。

创建自定义拼写检查功能使用编辑距离搜索者

这个例子展示了如何正确拼写使用编辑距离和搜索的已知字的词汇。

语言支持金宝app

语言的注意事项

使用文本分析工具箱功能的信息用于其他语言。

日语支持金宝app

在文本分析工具箱日本支持的信息。金宝app

日本分析文本数据

这个例子说明如何导入,准备和使用主题模型分析日文文本数据。

德语支持金宝app

在文本分析工具箱德国支持的信息。金宝app

德国分析文本数据

这个例子说明如何导入,准备和使用主题模型分析德语文本数据。

精选示例