文本分析工具箱
分析和建模文本数据
Text Analytics Toolbox™提供用于预处理,分析和建模文本数据的算法和可视化。使用工具箱创建的模型可用于语言分析,预测性维护和主题建模等应用程序。
Text Analytics工具箱包括从设备日志,新闻源,调查,运营商报告和社交媒体等源处理原始文本的工具。您可以从流行文件格式提取文本,预处理原始文本,提取单个单词,将文本转换为数字表示,并构建统计模型。
使用机器学习技术,如LSA,LDA和Word Embeddings,您可以找到来自高维文本数据集的群集并创建功能。使用Text Analytics Toolbox创建的功能可以与其他数据源的功能组合,以构建机器学习模型,以利用文本,数字和其他类型的数据。
开始:
提取文本数据
将文本数据导入MATLAB®从单个文件或大型文件集合,包括PDF,HTML和Microsoft®字®和Excel.®文件。
清洁文本数据
应用高级过滤功能来删除无关内容,如url、HTML标记和标点,并纠正拼写错误。
字嵌入和编码
火车嵌入式型号,如Word2vec连续袋(CBOW)和跳过克模型。导入借用模型,包括FastText和手套。
主题建模
使用潜在Dirichlet分配(LDA)和潜在语义分析(LSA)等机器学习算法在大型文本数据集中发现并可视化潜在模式、趋势和复杂关系。
文件摘要和关键字提取
从一个或多个文档自动提取摘要和相关关键字,并评估文档的相似性和重要性。
文本分类
使用Word Embeddings对文本描述进行分类,可以通过深度学习识别文本类别。
关键字提取
使用RAKE和TextRank算法提取最能描述文档的关键字
看到发布说明有关这些功能的详细信息和相应的功能。
基于深度学习的情感分析
分析实时推特数据的情绪,了解一个给定术语是如何被理解的。