文档帮助中心文档

文本数据准备

文本数据导入MATLAB^®和预处理分析

文本分析工具箱™工具处理原始文本来源包括设备日志,新闻,调查,运营商报告,和社交媒体。使用这些工具从流行的文件格式中提取文本,原始文本进行预处理,提取单个词或多字短语(- gram),将文本转换成数值表示,并建立统计模型。为一个例子展示如何开始,明白了准备文本数据进行分析。

文本分析工具箱支持语言英语、日语、德语,韩语。金宝app大多数文本分析工具箱函数处理从其他语言文本。有关更多信息,请参见语言的注意事项。

功能

导入和导出

`extractFileText`	从PDF阅读文本,微软词、HTML和纯文本文件
`extractHTMLText`	从HTML中提取文本
`readPDFFormData`	读取数据从PDF表单
`writeTextDocument`	写文档文本文件

HTML解析

`htmlTree`	解析HTML树
`findElement`	发现在HTML元素树
`getAttribute`	阅读HTML属性的HTML树的根节点
`ismissing`	找到HTML树没有值
`字符串`	解析HTML树转换为字符串

文档预处理

`tokenizedDocument`	数组标记化的文档进行文本分析
`erasePunctuation`	从文本和文档删除标点符号
`eraseTags`	从文本删除HTML和XML标记
`eraseURLs`	擦除HTTP和HTTPS url从文本
`removeStopWords`	从文档删除停用词
`removeShortWords`	从文件或删除短词bag-of-words模型
`removeLongWords`	从文件或删除长单词bag-of-words模型
`removeWords`	删除选中的文字从文档或bag-of-words模型
`normalizeWords`	茎或lemmatize单词
`replaceWords`	替代词在文档中
`replaceNgrams`	在文档中替换字格
`stopWords`	停止词列表
`decodeHTMLEntities`	HTML和XML实体转换成字符
`较低的`	将文档转换成小写
`上`	将文档转换成大写

令牌的细节

`上下文`	文档搜索单词或语法出现在上下文
`tokenDetails`	标记化的文档中标记数组的细节
`addSentenceDetails`	句子数字添加到文档
`addPartOfSpeechDetails`	词性标记添加到文档
`addLemmaDetails`	引理形式的标记添加到文档
`addLanguageDetails`	语言标识符添加到文档
`addEntityDetails`	实体标记添加到文档
`addTypeDetails`	令牌类型的细节添加到文档
`splitSentences`	文本分割成句子
`corpusLanguage`	发现语言的文本
`缩写`	常见的缩写词表
`topLevelDomains`	顶级域名列表

单词和语法计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	添加文档bag-of-words或bag-of-n-grams模型
`removeDocument`	把文件从bag-of-words或bag-of-n-grams模型
`removeInfrequentWords`	从bag-of-words模型删除单词计数较低
`removeInfrequentNgrams`	除去bag-of-n-grams很少看到字格模型
`removeNgrams`	把字格从bag-of-n-grams模型
`removeEmptyDocuments`	删除空的文件从标记化的文档数组,bag-of-words模型,或bag-of-n-grams模型
`topkwords`	最重要的是单词bag-of-words模型或LDA的话题
`topkngrams`	最常见的字格
`编码`	编码矩阵的词或语法方面的文件
`tfidf`	术语Frequency-Inverse文档频率(tf-idf)矩阵
`加入`	结合多个bag-of-words或bag-of-n-grams模型

拼写检查和编辑距离

`用语`	正确的拼写单词
`editDistance`	找到两个字符串之间的编辑距离或文档
`editDistanceSearcher`	编辑距离最近邻搜索者
`knnsearch`	通过编辑距离找到最近的邻居
`rangesearch`	通过编辑距离范围找到最近的邻居
`splitGraphemes`	字符串分割成字母

文档操作和转换

`docfun`	功能适用于词汇的文档
`+`	附加文件
`取代`	替换文件中的子字符串
`regexprep`	使用正则表达式替换文本单词的文档
`doclength`	文档在文档数组的长度
`doc2cell`	将文档转换成字符串向量的单元阵列
`joinWords`	通过加入的话将文档转换为字符串
`字符串`	标量文档转换为字符串向量

Unicode

`textanalytics.unicode.nfd`	Unicode分解规范化形式(NFD)
`UTF32`	Unicode utf - 32字符串表示
`characterCategories`	Unicode字符类别
`十六进制`	utf - 32表示转换为十六进制值
`字符串`	utf - 32表示转换为字符串

主题

进口

从文件中提取文本数据

这个例子展示了如何从文本中提取文本数据,HTML, Microsoft®Word, PDF, CSV, Microsoft Excel®文件并将其导入MATLAB®进行分析。

解析HTML并提取文本内容

这个例子展示了如何解析HTML代码和提取特定元素的文本内容。

用于文本分析的数据集

发现数据集各种文本分析任务。

预处理

准备文本数据进行分析

这个例子展示了如何创建一个函数,清洗和预处理文本数据进行分析。

分析包含Emojis文本数据

这个例子展示了如何分析包含emojis文本数据。

正确的拼写在文档中

这个例子展示了如何使用Hunspell正确拼写文档。

创建扩展字典拼写校正

这个例子展示了如何创建一个Hunspell扩展字典拼写校正。

创建自定义拼写校正函数使用编辑距离搜索者

这个例子展示了如何使用编辑距离搜索正确的拼写和已知的词汇。

语言支持金宝app

语言的注意事项

信息使用文本分析工具箱功能,为其他语言。

日本语言支持金宝app

日本支持文本信息分析工具。金宝app

分析日本文本数据

这个例子展示了如何导入,准备和分析日本文本数据使用主题模型。

德国语言支持金宝app

德国支持文本信息分析工具。金宝app

分析德国文本数据

这个例子展示了如何导入,准备和分析德国文本数据使用主题模型。

特色的例子

从文件中提取文本数据

从文件中提取文本数据

从文本中提取文本数据、HTML、Microsoft®Word, PDF, CSV, Microsoft Excel®文件并将其导入MATLAB®进行分析。

打开生活的脚本

准备文本数据进行分析

准备文本数据进行分析

创建一个函数,清洗和预处理文本数据进行分析。

打开生活的脚本

分析包含Emojis文本数据

分析包含Emojis文本数据

分析包含emojis文本数据。

打开生活的脚本

文本分析工具箱文档

金宝app

开始使用MATLAB的文本分析

开始使用MATLAB的文本分析

立即下载