文本分析工具箱

分析和建模文本数据

文本分析工具箱™为预处理、分析和建模文本数据提供了算法和可视化。使用工具箱创建的模型可用于情感分析、预测维护和主题建模等应用程序。

文本分析工具箱包括用于处理来自设备日志、新闻源、调查、操作员报告和社交媒体等源的原始文本的工具。您可以从流行的文件格式中提取文本,预处理原始文本,提取单个单词,将文本转换为数字表示,并构建统计模型。

使用诸如LSA、LDA和word embeddings等机器学习技术,您可以从高维文本数据集中找到集群并创建特性。使用文本分析工具箱创建的特性可以与来自其他数据源的特性组合在一起,以构建利用文本、数字和其他类型数据的机器学习模型。

开始:

导入和可视化文本数据

从社交媒体、新闻源、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据导入MATLAB®从单个文件或大型文件集合,包括PDF、HTML和Microsoft®®和Excel®文件。

从Microsoft Word文档集合中提取文本。

可视化文本

使用字云和文本散点图查看文本数据集。

文本散点图显示使用字体大小和颜色的单词的相对频率。

语言支持金宝app

文本分析工具箱为英语、日语、德语和韩语提供特定语言的预处理功能。大多数函数也可以处理其他语言的文本。

导入、准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的单词。

清洁文本数据

应用高级过滤函数来删除无关的内容,如url、HTML标记、标点符号和正确的拼写。

简化原始文本(左)来处理最有意义的单词(右)。

过滤停止单词并将单词规格化为根形式

在您的分析中,通过过滤掉常见单词、出现太频繁或不太频繁的单词以及非常长或非常短的单词,对有意义的文本数据进行优先排序。减少词汇量,将重点放在文档更广泛的意义或情感上,方法是将单词词干提取到它们的根形式,或者将它们化用到它们的字典形式。

从文档中删除停止词,如“a”和“of”。

识别标记、句子和词类

使用标记算法自动将原始文本拆分为单词集合。为上下文添加句子边界、词性细节和其他相关信息。

财务图表和技术指标。

将文本转换为数字格式

将文本数据转换为数字形式,用于机器学习和深度学习。

单词和n克计数

计算词频统计数字来表示文本数据。

识别并可视化模型中最频繁出现的单词。

字嵌入和编码

训练单词嵌入模型,如word2vec连续单词包(CBOW)和跳跃图模型。进口预训练模型,包括fastText和手套。

使用单词嵌入在文本散点图中可视化集群。

使用文本数据的机器学习

使用机器学习算法进行主题建模、分类、降维和文档摘要提取。

主题建模

使用机器学习算法(如潜在的Dirichlet分配(LDA)和潜在语义分析(LSA))发现和可视化大组文本数据中的潜在模式、趋势和复杂关系。

确定风暴报告数据中的主题。

文档摘要

自动从一个或多个文档中提取摘要,并评估文档的相似性和重要性。

从文本中提取摘要。

利用文本数据进行深度学习

进行情绪分析和分类深度学习长短时记忆网络(LSTMs)等网络。

情绪分析

识别文本数据中表达的态度和观点,将陈述归类为积极、中性或消极。建立能够实时预测情绪的模型。

识别预测积极和消极情绪的词汇。

训练一个深度神经网络对文本数据进行分类。

文本生成

使用深度学习,根据观察到的文本生成新文本。

使用简·奥斯汀的文本生成《傲慢与偏见》和一个深度学习的LSTM网络。

最新的特性

文档摘要

从文本中提取摘要

文档的重要性

使用TextRank、LexRank和最大边际相关性(MMR)评估文本的重要性

文档相似

使用BM25、余弦相似度、BLEU或ROUGE评分算法评估文本相似度

拼写校正

英语、德语和韩语文本的正确拼写

看到发布说明了解这些特性和相应功能的详细信息。

情绪分析与深度学习

分析实时Twitter数据的情绪,以理解如何理解给定的术语。

有问题吗?

联系Sohini Sarkar,文本分析工具箱技术专家