文本分析工具箱

分析和建模文本数据

Text Analytics Toolbox™提供用于预处理,分析和建模文本数据的算法和可视化。使用工具箱创建的模型可用于语言分析,预测性维护和主题建模等应用程序。

Text Analytics工具箱包括从设备日志,新闻源,调查,运营商报告和社交媒体等源处理原始文本的工具。您可以从流行文件格式提取文本,预处理原始文本,提取单个单词,将文本转换为数字表示,并构建统计模型。

使用机器学习技术,如LSA,LDA和Word Embeddings,您可以找到来自高维文本数据集的群集并创建功能。使用Text Analytics Toolbox创建的功能可以与其他数据源的功能组合,以构建机器学习模型,以利用文本,数字和其他类型的数据。

开始:

导入并可视化文本数据

从诸如社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据导入MATLAB®从单个文件或大型文件集合,包括PDF,HTML和Microsoft®®和Excel.®文件。

从Microsoft Word文档集合中提取文本。

可视化文本

使用词云和文本散点图可视化地探索文本数据集。

单词云显示了使用字体大小和颜色的单词的相对频率。

语言支持金宝app

Text Analytics Toolbox为英语、日语、德语和韩语提供特定语言的预处理能力。大多数函数也可以处理其他语言中的文本。

导入,准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的单词。

清洁文本数据

应用高级过滤功能来删除无关内容,如url、HTML标记和标点,并纠正拼写错误。

简化原始文本(左)来处理最有意义的单词(右)。

过滤停止词并将词规范化为根形式

通过过滤出常见的单词,常见或不经常出现的单词,以及非常长或非常短的单词,优先考虑分析中的有意义的文本数据。减少词汇,重点关注文档的更广泛的感觉或情绪,通过源于他们的根形式或将它们释放到他们的字典形式。

从文档中删除“A”和“A的”A“等。

识别令牌,句子和言论

使用令牌化算法自动将原始文本分成一系列单词。添加句子边界,言语部分的细节以及上下文的其他相关信息。

向标记化的文档添加词性和句子细节。

将文本转换为数字格式

将文本数据转换为数字形式,用于机器学习和深度学习。

单词和n-gram计数

计算词频统计以数字表示文本数据。

识别并可视化模型中最常出现的单词。

字嵌入和编码

火车嵌入式型号,如Word2vec连续袋(CBOW)和跳过克模型。导入借用模型,包括FastText和手套。

使用Word Embedding在文本散点图中可视化群集。

用文本数据学习

使用机器学习算法执行主题建模,分类,维数减少和文档摘要提取。

主题建模

使用潜在Dirichlet分配(LDA)和潜在语义分析(LSA)等机器学习算法在大型文本数据集中发现并可视化潜在模式、趋势和复杂关系。

识别Storm报告数据中的主题。

文件摘要和关键字提取

从一个或多个文档自动提取摘要和相关关键字,并评估文档的相似性和重要性。

从文本中提取摘要。

深入学习文本数据

执行情绪分析和分类深度学习长期内存网络(LSTMS)等网络。

情绪分析

识别文本数据中所表达的态度和观点,将语句分为肯定、中立或否定。建立能够实时预测情绪的模型。

识别预测积极和消极情绪的词汇。

训练一个深度神经网络来分类文本数据。

文本生成

使用深度学习根据观察到的文本生成新的文本。

使用Jane Austen的文本生成《傲慢与偏见》和深度学习的LSTM网络。

最新的特性

关键字提取

使用RAKE和TextRank算法提取最能描述文档的关键字

看到发布说明有关这些功能的详细信息和相应的功能。

基于深度学习的情感分析

分析实时推特数据的情绪,了解一个给定术语是如何被理解的。