莎拉帕尔菲雷曼,马达工厂
Text Analytics Toolbox™提供用于从文档,预处理原始文本,可视化文本和在文本数据上执行计算机学习的文本的工具。典型的工作流程开始通过从文档导入文本数据,例如PDF和Microsoft®字®文件,然后从数据中提取有意义的单词。一旦文本被预处理,您就可以以多种方式与您的数据进行交互,包括将文本转换为数字表示,并以单词云或散点图可视化文本。
通过Text Analytics Toolbox创建的功能还可以与其他数据源的功能相结合,以构建利用文本、数字、音频和其他类型数据的机器学习模型。您可以导入预先训练好的词嵌入模型,例如在Word2vec.、FastText和GloVe格式,以将数据集中的单词映射到它们对应的单词向量。您还可以使用LDA和LSA等机器学习算法进行主题建模和降维。
开始将大量文本数据转换为有意义的洞察力,下载免费试用文本分析工具箱。
Text Analytics Toolbox提供用于从文档,预处理原始文本,可视化文本和在文本数据上执行计算机学习的文本的工具。
您可以使用文本分析工具箱来分析维护报告,操作日志,财务文件,Web和社交媒体来源等源的数据。
您可以从包含Microsoft Word,Microsoft Excel和PDF的各种来源中提取原始文本,并使用Word云来查看单词和交互式散点图的相对频率,以了解单词之间的数字关系。
Text Analytics Toolbox提供用于预处理原始文本的函数,例如删除通用单词和标点符号,并将文档销售为单个单词或短语。
一旦预先处理文本,将文本转换为数字表示,您可以允许更多的分析和可视化来理解单词频率,包括:
统计和机器学习算法可以与文本分析一起用于进行主题建模,以识别文档中的主题,对文档进行分类并做出预测。
您可以培训机器学习模型或使用预先训练的单词嵌入模型,如Word2Vec,FastText和手套。
在此示例中,潜在的Dirichlet分配算法用于构建一个主题模型,其中60个主题在Storm报告中识别损坏和天气模式。
您还可以使用深度学习算法在拥有大组文档时构建准确的分类器,并使用并行计算来加速文本处理和培训。
有关Text Analytics Toolbox的更多信息,请参阅产品页面,或选择下面的链接。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。