此示例显示如何使用文本分析来使用10行的MATLAB®代码对文本数据进行分类。尝试实现Matlab中的文本分析的最简单。
您可以创建一个简单的分类模型,它使用Word频率计数作为预测器。此示例列举了分类模型,以预测使用文本描述来预测工厂报告的事件类型。
创建模型的主要步骤是:
导入 - 将文本数据导入MATLAB。
预处理 - 预处理文本进行单词分析。
转换 - 将文本转换为数字数据。
火车 - 训练分类模型。
导入示例文本数据和标签,授权文本,使用袋式模型将其转换为数字数据,并培训监督的SVM分类器。
数据=可读取('factoryreports.csv'那'texttype'那'细绳');%读取数据标签=分类(data.category);%读取标签文档= tokenizeddocument(data.description);%预处理文本bag = bagofwords(文件);%计数单词xtrain = bag.counts;%转换为数字数据mdl = fitcecoc(Xtrain,标签,'学习者'那'线性');%火车分类器
预测的步骤与培训相似。要使用新数据预测,预处理文本数据并使用用于培训的相同步骤将其转换为数字。然后,使用训练的模型预测标签。
预测文本的标签“冷却液在分拣机下面汇集。”
。
str =“冷却液在分拣机下面汇集。”;%导入文本documentnew = tokenizeddocument(str);%预处理文本xtest =编码(包,doversidnew);%转换为数字标签=预测(MDL,XTEST)%预测标签
标签=分类泄漏
有关显示更详细工作流程的示例,请参阅为分类创建简单的文本模型。
对于文本分析中的下一步,您可以通过预处理数据来尝试提高模型准确性,并使用Word云可视化文本数据。对于例子,见准备分析的文本数据和使用Word云可视化文本数据。