主要内容

文本数据准备

文本数据导入MATLAB®和预处理分析

文本分析工具箱™工具处理原始文本来源包括设备日志,新闻,调查,运营商报告,和社交媒体。使用这些工具从流行的文件格式中提取文本,原始文本进行预处理,提取单个词或多字短语(- gram),将文本转换成数值表示,并建立统计模型。为一个例子展示如何开始,明白了准备文本数据进行分析

文本分析工具箱支持语言英语、日语、德语,韩语。金宝app大多数文本分析工具箱函数处理从其他语言文本。有关更多信息,请参见语言的注意事项

功能

全部展开

extractFileText 从PDF阅读文本,微软、HTML和纯文本文件
extractHTMLText 从HTML中提取文本
readPDFFormData 读取数据从PDF表单
writeTextDocument 写文档文本文件
htmlTree 解析HTML树
findElement 发现在HTML元素树
getAttribute 阅读HTML属性的HTML树的根节点
ismissing 找到HTML树没有值
字符串 解析HTML树转换为字符串
tokenizedDocument 数组标记化的文档进行文本分析
erasePunctuation 从文本和文档删除标点符号
eraseTags 从文本删除HTML和XML标记
eraseURLs 擦除HTTP和HTTPS url从文本
removeStopWords 从文档删除停用词
removeShortWords 从文件或删除短词bag-of-words模型
removeLongWords 从文件或删除长单词bag-of-words模型
removeWords 删除选中的文字从文档或bag-of-words模型
normalizeWords 茎或lemmatize单词
replaceWords 替代词在文档中
replaceNgrams 在文档中替换字格
stopWords 停止词列表
decodeHTMLEntities HTML和XML实体转换成字符
较低的 将文档转换成小写
将文档转换成大写
上下文 文档搜索单词或语法出现在上下文
tokenDetails 标记化的文档中标记数组的细节
addSentenceDetails 句子数字添加到文档
addPartOfSpeechDetails 词性标记添加到文档
addLemmaDetails 引理形式的标记添加到文档
addLanguageDetails 语言标识符添加到文档
addEntityDetails 实体标记添加到文档
addTypeDetails 令牌类型的细节添加到文档
splitSentences 文本分割成句子
corpusLanguage 发现语言的文本
缩写 常见的缩写词表
topLevelDomains 顶级域名列表
bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument 添加文档bag-of-words或bag-of-n-grams模型
removeDocument 把文件从bag-of-words或bag-of-n-grams模型
removeInfrequentWords 从bag-of-words模型删除单词计数较低
removeInfrequentNgrams 除去bag-of-n-grams很少看到字格模型
removeNgrams 把字格从bag-of-n-grams模型
removeEmptyDocuments 删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型
topkwords 最重要的是单词bag-of-words模型或LDA的话题
topkngrams 最常见的字格
编码 编码矩阵的词或语法方面的文件
tfidf 术语Frequency-Inverse文档频率(tf-idf)矩阵
加入 结合多个bag-of-words或bag-of-n-grams模型
用语 正确的拼写单词
editDistance 找到两个字符串之间的编辑距离或文档
editDistanceSearcher 编辑距离最近邻搜索者
knnsearch 通过编辑距离找到最近的邻居
rangesearch 通过编辑距离范围找到最近的邻居
splitGraphemes 字符串分割成字母
docfun 功能适用于词汇的文档
+ 附加文件
取代 替换文件中的子字符串
regexprep 使用正则表达式替换文本单词的文档
doclength 文档在文档数组的长度
doc2cell 将文档转换成字符串向量的单元阵列
joinWords 通过加入的话将文档转换为字符串
字符串 标量文档转换为字符串向量
textanalytics.unicode.nfd Unicode分解规范化形式(NFD)
UTF32 Unicode utf - 32字符串表示
characterCategories Unicode字符类别
十六进制 utf - 32表示转换为十六进制值
字符串 utf - 32表示转换为字符串

主题

进口

从文件中提取文本数据

这个例子展示了如何从文本中提取文本数据,HTML, Microsoft®Word, PDF, CSV, Microsoft Excel®文件并将其导入MATLAB®进行分析。

解析HTML并提取文本内容

这个例子展示了如何解析HTML代码和提取特定元素的文本内容。

用于文本分析的数据集

发现数据集各种文本分析任务。

预处理

准备文本数据进行分析

这个例子展示了如何创建一个函数,清洗和预处理文本数据进行分析。

分析包含Emojis文本数据

这个例子展示了如何分析包含emojis文本数据。

正确的拼写在文档中

这个例子展示了如何使用Hunspell正确拼写文档。

创建扩展字典拼写校正

这个例子展示了如何创建一个Hunspell扩展字典拼写校正。

创建自定义拼写校正函数使用编辑距离搜索者

这个例子展示了如何使用编辑距离搜索正确的拼写和已知的词汇。

语言支持金宝app

语言的注意事项

信息使用文本分析工具箱功能,为其他语言。

日本语言支持金宝app

日本支持文本信息分析工具。金宝app

分析日本文本数据

这个例子展示了如何导入,准备和分析日本文本数据使用主题模型。

德国语言支持金宝app

德国支持文本信息分析工具。金宝app

分析德国文本数据

这个例子展示了如何导入,准备和分析德国文本数据使用主题模型。

特色的例子