文本分析工具箱

分析和建模文本数据

Text Analytics Toolbox™为文本数据的预处理、分析和建模提供了算法和可视化。使用工具箱创建的模型可用于情感分析、预测维护和主题建模等应用程序。

文本分析工具箱包括用于处理来自设备日志、新闻源、调查、运营商报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式中提取文本,预处理原始文本,提取单个单词,将文本转换为数字表示,并构建统计模型。

使用机器学习技术,如LSA、LDA和单词嵌入,您可以从高维文本数据集中找到集群并创建特征。使用文本分析工具箱创建的功能可以与来自其他数据源的功能相结合,以构建利用文本、数字和其他类型数据的机器学习模型。

开始:

导入和可视化文本数据

从社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。

提取文本数据

导入文本数据到MATLAB®从单个文件或大型文件集合,包括PDF、HTML和Microsoft®单词®和Excel®文件。

从Microsoft Word文档集合中提取文本。

可视化文本

使用单词云和文本散点图直观地浏览文本数据集。

单词云显示使用字体大小和颜色的单词的相对频率。

语言支持金宝app

Text Analytics Toolbox为英语、日语、德语和韩语提供了语言特定的预处理功能。大多数函数也可以处理其他语言的文本。

导入、准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的单词。

清除文本数据

应用高级过滤功能来删除无关内容,如url、HTML标记和标点符号,并纠正拼写。

简化原始文本(左)以使用最有意义的单词(右)。

过滤停止字并将字规范化为根形式

在分析中,通过过滤常见单词、出现频率过高或过低的单词、太长或太短的单词,对有意义的文本数据进行优先级排序。减少词汇量,将注意力集中在文档的更广泛的意义或情感上,方法是将单词词根化或词根化到字典形式。

删除文档中的停顿词,如“a”和“of”。

识别标记、句子和词类

使用标记算法自动将原始文本分割为单词集合。为上下文添加句子边界、词性细节和其他相关信息。

向标记化文档添加词性和句子细节。

将文本转换为数字格式

将文本数据转换为数字形式,用于机器学习和深度学习。

单词和N-Gram计数

计算词频统计以数字方式表示文本数据。

识别并可视化模型中最常出现的单词。

单词嵌入和编码

训练词嵌入模型,如word2vec连续词袋(CBOW)和跳跃图模型。导入预先训练的模型,包括fastText和GloVe。

使用单词嵌入在文本散点图中可视化集群。

基于文本数据的机器学习

使用机器学习算法进行主题建模、情感分析、分类、降维和文档摘要提取。

主题建模

使用机器学习算法,如潜在Dirichlet分配(LDA)和潜在语义分析(LSA),发现并可视化大型文本数据集中的潜在模式、趋势和复杂关系。

确定风暴报告数据中的主题。

文档摘要和关键字提取

自动从一个或多个文档中提取摘要和相关关键字,并评估文档的相似性和重要性。

从文本中提取摘要。

情绪分析

识别文本数据中表达的态度和观点,将陈述归类为积极、中立或消极。建立能够实时预测情绪的模型。

识别预测积极和消极情绪的词语。

文本数据的深度学习

表演情绪分析、分类、摘要和文本生成使用深度学习算法。

变压器模型

利用变换器模型(如BERT和GPT-2)对情绪分析、分类和总结等任务的文本数据执行迁移学习。

使用文本数据进行迁移学习的转换器模型。

训练深层神经网络对文本数据进行分类。

文本生成

使用深度学习根据观察到的文本生成新文本。

文本生成使用简奥斯汀的傲慢与偏见深度学习LSTM网络。