莎拉帕尔菲雷曼,马达工厂
Text Analytics Toolbox™提供用于从文档,预处理原始文本,可视化文本和在文本数据上执行计算机学习的文本的工具。典型的工作流程开始通过从文档导入文本数据,例如PDF和Microsoft®单词®文件,然后从数据中提取有意义的单词。一旦文本被预处理,您就可以以多种方式与您的数据进行交互,包括将文本转换为数字表示,并以单词云或散点图可视化文本。
使用文本分析工具箱创建的功能还可以与其他数据源的功能相结合,以构建利用文本、数字、音频和其他类型数据的机器学习模型。您可以导入预训练的单词嵌入模型,如中提供的模型Word2vec.、FastText和GloVe格式,将数据集中的单词映射到相应的单词向量。您还可以使用机器学习算法(如LDA和LSA)执行主题建模和降维。
开始将大量文本数据转换为有意义的洞察力,下载免费试用文本分析工具箱。
Text Analytics Toolbox提供用于从文档,预处理原始文本,可视化文本和在文本数据上执行计算机学习的文本的工具。
您可以使用文本分析工具箱来分析来自维护报告、操作日志、财务文档、网络和社交媒体等来源的数据。
您可以从各种源(包括Microsoft Word、Microsoft Excel和PDF)中提取原始文本,并使用Word clouds查看单词的相对频率和交互式散点图,以了解单词之间的数字关系。
Text Analytics Toolbox提供用于预处理原始文本的函数,例如删除通用单词和标点符号,并将文档销售为单个单词或短语。
一旦预先处理文本,将文本转换为数字表示,您可以允许更多的分析和可视化来理解单词频率,包括:
统计和机器学习算法可与文本分析一起使用,以执行主题建模,以识别文档中的主题、对文档进行分类并进行预测。
您可以培训机器学习模型或使用预先训练的单词嵌入模型,如Word2Vec,FastText和手套。
在此示例中,潜在的Dirichlet分配算法用于构建一个主题模型,其中60个主题在Storm报告中识别损坏和天气模式。
您还可以使用深度学习算法在拥有大组文档时构建准确的分类器,并使用并行计算来加速文本处理和培训。
有关Text Analytics Toolbox的更多信息,请参阅产品页面,或选择下面的链接。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。