莎拉•Palfreyman MathWorks
Text Analytics Toolbox™提供了从文档中提取文本、对原始文本进行预处理、可视化文本以及对文本数据执行机器学习的工具。典型的工作流首先从文档(如PDF和Microsoft)导入文本数据®词®文件,然后从数据中提取有意义的单词。文本经过预处理后,就可以通过多种方式与数据进行交互,包括将文本转换为数字表示,并使用词云或散点图将文本可视化。
使用Text Analytics Toolbox创建的功能还可以与来自其他数据源的功能相结合,以构建利用文本、数字、音频和其他类型数据的机器学习模型。您可以导入预先训练过的文字嵌入模型,例如word2vec、FastText和GloVe格式,将数据集中的单词映射到它们相应的单词向量。您还可以使用LDA和LSA等机器学习算法进行主题建模和降维。
为了开始将大量的文本数据转换成有意义的见解,下载免费试用版文本分析工具箱。
文本分析工具箱提供了从文档中提取文本、预处理原始文本、可视化文本和对文本数据执行机器学习的工具。
您可以使用文本分析工具箱来分析数据来源,如维护报告,操作日志,财务文件,网络和社交媒体来源。
您可以从各种来源(包括Microsoft Word、Microsoft Excel和PDF)提取原始文本,并使用单词云查看单词的相对频率和交互式散点图,以了解单词之间的数字关系。
Text Analytics Toolbox提供了对原始文本进行预处理的功能,例如删除常用单词和标点符号,并将文档标记为单个单词或短语。
文本经过预处理后,将文本转换为数字表示,您可以进行更多的分析和可视化,以了解词频,包括:
统计和机器学习算法可以与文本分析一起用于执行主题建模,以识别文档中的主题,对文档进行分类并进行预测。
你可以训练机器学习模型或使用预先训练的词嵌入模型,如word2vec, FastText和GloVe。
在本例中,使用Latent Dirichlet Allocation算法构建一个包含60个风暴报告主题的主题模型,以识别损害和天气模式。
当您有大量文档集时,您还可以使用深度学习算法来构建准确的分类器,并使用并行计算来加快文本处理和训练。
有关文本分析工具箱的详细信息,请参阅产品页面,或选择下面的链接。
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。