主要内容

尝试在10行代码文本分析

这个例子展示了如何使用文本分析分类文本数据只使用MATLAB®的10行代码。试着看看简单的例子是在MATLAB开始使用文本分析。

您可以创建一个简单的分类模型,该模型使用单词频率计数作为预测因子。这个例子训练分类模型预测工厂报告的事件类型使用文本描述。

创建模型

创建一个模型的主要步骤是:

  1. ——导入文本数据导入MATLAB。

  2. 进行预处理,预处理文本词分析。

  3. 转换,将文本转换为数值型数据。

  4. 火车——训练分类模型。

导入示例文本数据和标签,标记文本,将它转换成数值型数据使用bag-of-words模型,和培训监督SVM分类器。

数据= readtable (“factoryReports.csv”,“TextType”,“字符串”);%读取数据标签=分类(data.Category);%阅读标签文件= tokenizedDocument (data.Description);%预处理文本袋= bagOfWords(文件);%计算单词XTrain = bag.Counts;%转换为数值型数据mdl = fitcecoc (XTrain、标签“学习者”,“线性”);%训练分类器

预测使用新数据

预测的步骤类似培训。预测使用新数据,预处理文本数据并将其转换为数字使用相同的步骤用于培训。然后,使用训练模型预测标签。

预测文本的标签“冷却池下面分选机。”

str =“冷却池下面分选机。”;%导入文本documentsNew = tokenizedDocument (str);%预处理文本XTest =编码(袋、documentsNew);%转换为数字XTest标签=预测(mdl)%预测标签
标签=分类泄漏

例如显示更详细的工作流程,知道了创建简单的文本分类模型

文本分析的步骤,你可以试着在数据预处理,提高模型精度和使用词云可视化文本数据。有关示例,请参见准备文本数据进行分析使用词云可视化文本数据

另请参阅

||

相关的话题