主要内容

在10行代码中尝试文本分析

此示例显示如何使用文本分析来使用10行的MATLAB®代码对文本数据进行分类。尝试实现Matlab中的文本分析的最简单。

您可以创建一个简单的分类模型,它使用Word频率计数作为预测器。此示例列举了分类模型,以预测使用文本描述来预测工厂报告的事件类型。

创建模型

创建模型的主要步骤是:

  1. 导入 - 将文本数据导入MATLAB。

  2. 预处理 - 预处理文本进行单词分析。

  3. 转换 - 将文本转换为数字数据。

  4. 火车 - 训练分类模型。

导入示例文本数据和标签,授权文本,使用袋式模型将其转换为数字数据,并培训监督的SVM分类器。

数据=可读取('factoryreports.csv''texttype''细绳');%读取数据标签=分类(data.category);%读取标签文档= tokenizeddocument(data.description);%预处理文本bag = bagofwords(文件);%计数单词xtrain = bag.counts;%转换为数字数据mdl = fitcecoc(Xtrain,标签,'学习者''线性');%火车分类器

使用新数据预测

预测的步骤与培训相似。要使用新数据预测,预处理文本数据并使用用于培训的相同步骤将其转换为数字。然后,使用训练的模型预测标签。

预测文本的标签“冷却液在分拣机下面汇集。”

str =“冷却液在分拣机下面汇集。”;%导入文本documentnew = tokenizeddocument(str);%预处理文本xtest =编码(包,doversidnew);%转换为数字标签=预测(MDL,XTEST)%预测标签
标签=分类泄漏

有关显示更详细工作流程的示例,请参阅为分类创建简单的文本模型

对于文本分析中的下一步,您可以通过预处理数据来尝试提高模型准确性,并使用Word云可视化文本数据。对于例子,见准备分析的文本数据使用Word云可视化文本数据

也可以看看

||

相关话题