文本分析工具箱

分析和建模文本数据

观看视频

下载免费试用版

文本分析工具箱™为预处理、分析和建模文本数据提供了算法和可视化。使用工具箱创建的模型可用于情感分析、预测维护和主题建模等应用程序。

文本分析工具箱包括用于处理来自设备日志、新闻源、调查、操作员报告和社交媒体等源的原始文本的工具。您可以从流行的文件格式中提取文本，预处理原始文本，提取单个单词，将文本转换为数字表示，并构建统计模型。

使用诸如LSA、LDA和word embeddings等机器学习技术，您可以从高维文本数据集中找到集群并创建特性。使用文本分析工具箱创建的特性可以与来自其他数据源的特性组合在一起，以构建利用文本、数字和其他类型数据的机器学习模型。

最新的特性
文档和资源
尝试或购买

免费白皮书
开始在MATLAB中进行文本分析

现在访问

导入和可视化文本数据

从社交媒体、新闻源、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据导入MATLAB^®从单个文件或大型文件集合，包括PDF、HTML和Microsoft^®词^®和Excel^®文件。

从文件中提取文本数据

解析HTML并提取文本内容

分析包含表情符号的文本数据

从Microsoft Word文档集合中提取文本。

可视化文本

使用字云和文本散点图查看文本数据集。

使用字云可视化文本数据

使用文本散点图可视化单词嵌入

文本散点图显示使用字体大小和颜色的单词的相对频率。

语言支持金宝app

文本分析工具箱为英语、日语、德语和韩语提供特定语言的预处理功能。大多数函数也可以处理其他语言的文本。

语言支持金宝app

分析日语文本数据

检测文本语言

分析德语文本数据

导入、准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的单词。

清洁文本数据

应用高级过滤函数来删除无关的内容，如url、HTML标记、标点符号和正确的拼写。

为分析准备文本数据

从文本和文档中删除标点符号

从文本中删除HTTP和HTTPS url

文档中的正确拼写

简化原始文本(左)来处理最有意义的单词(右)。

过滤停止单词并将单词规格化为根形式

在您的分析中，通过过滤掉常见单词、出现太频繁或不太频繁的单词以及非常长或非常短的单词，对有意义的文本数据进行优先排序。减少词汇量，将重点放在文档更广泛的意义或情感上，方法是将单词词干提取到它们的根形式，或者将它们化用到它们的字典形式。

从文档中删除停止字

词干或引体词

从文档中删除停止词，如“a”和“of”。

识别标记、句子和词类

使用标记算法自动将原始文本拆分为单词集合。为上下文添加句子边界、词性细节和其他相关信息。

通过标记化将文本分割为单词

检测文档中的句子边界

向文档添加词性标记

财务图表和技术指标。

将文本转换为数字格式

将文本数据转换为数字形式，用于机器学习和深度学习。

单词和n克计数

计算词频统计数字来表示文本数据。

使用多词短语分析文本数据

术语频率逆文档频率(tf-idf)矩阵

识别并可视化模型中最频繁出现的单词。

字嵌入和编码

训练单词嵌入模型，如word2vec连续单词包(CBOW)和跳跃图模型。进口预训练模型，包括fastText和手套。

使用文本散点图可视化单词嵌入

预先训练快文本字嵌入

将字映射到嵌入向量

使用单词嵌入在文本散点图中可视化集群。

使用文本数据的机器学习

使用机器学习算法进行主题建模、分类、降维和文档摘要提取。

主题建模

使用机器学习算法(如潜在的Dirichlet分配(LDA)和潜在语义分析(LSA))发现和可视化大组文本数据中的潜在模式、趋势和复杂关系。

使用主题模型分析文本数据

为LDA模型选择一些主题

比较LDA解决者

确定风暴报告数据中的主题。

文档摘要

自动从一个或多个文档中提取摘要，并评估文档的相似性和重要性。

从文档中提取摘要

文档相似性与BM25算法

使用TextRank算法进行文档评分

从文本中提取摘要。

利用文本数据进行深度学习

进行情绪分析和分类深度学习长短时记忆网络(LSTMs)等网络。

情绪分析

识别文本数据中表达的态度和观点，将陈述归类为积极、中性或消极。建立能够实时预测情绪的模型。

训练情绪分类器

使用word2vec将Word映射到嵌入向量

识别预测积极和消极情绪的词汇。

文本分类

使用单词嵌入对文本描述进行分类，可以通过深度学习识别文本的类别。

使用机器学习创建简单的文本分类模型

使用深度学习对文本数据进行分类

使用自定义小型批处理数据存储对内存不足的文本数据进行分类

训练一个深度神经网络对文本数据进行分类。

文本生成

使用深度学习，根据观察到的文本生成新文本。

生成文本逐字符

使用单词嵌入层生成文本

使用字符嵌入层生成文本

使用简·奥斯汀的文本生成《傲慢与偏见》和一个深度学习的LSTM网络。

情绪分析与深度学习

分析实时Twitter数据的情绪，以理解如何理解给定的术语。

了解更多

有问题吗?

联系Sohini Sarkar，文本分析工具箱技术专家

电子邮件Sohini

额外的文本分析工具箱资源

文本机器学习:从MATLAB中的文本分析开始

获得免费试用

30天的探索在你的指尖。

立即下载

准备买什么?

获取价格信息，探索相关产品。下载188bet金宝搏

查看定价和许可联系销售

你是学生吗?

使用MATLAB和Simuli金宝appnk学生软件。

检查是否有免费通道立即购买

文本分析工具箱

文本分析工具箱

分析和建模文本数据