这个例子展示了如何使用文本分析分类文本数据只使用10行MATLAB®代码。尝试这个例子,看看在MATLAB中开始文本分析是多么简单。
您可以创建一个简单的分类模型,使用单词频率计数作为预测因素。这个例子训练了一个分类模型来使用文本描述预测工厂报告的事件类型。
创建模型的主要步骤是:
导入-导入文本数据到MATLAB。
预处理-对文本进行预处理以进行单词分析。
转换-将文本转换为数字数据。
列车-列车分类模型。
导入示例文本数据和标签,标记文本,使用单词袋模型将其转换为数字数据,并训练有监督的SVM分类器。
数据= readtable (“factoryReports.csv”,“TextType”,“字符串”);%读取数据标签=分类(data.Category);%阅读标签文件= tokenizedDocument (data.Description);%预处理文本袋= bagOfWords(文件);%计算单词XTrain = bag.Counts;%转换为数字数据mdl = fitcecoc (XTrain、标签“学习者”,“线性”);%训练分类器
预测的步骤与训练的步骤类似。要使用新数据进行预测,需要对文本数据进行预处理,并使用与训练相同的步骤将其转换为数字。然后,使用训练过的模型预测标签。
预测文本的标签“冷却剂在分拣机下面汇集。”
.
str =“冷却剂在分拣机下面汇集。”;%导入文本documentsNew = tokenizedDocument (str);%预处理文本XTest =编码(袋、documentsNew);%转换为数字XTest标签=预测(mdl)%预测标签
标签=分类泄漏
有关显示更详细工作流的示例,请参见为分类创建简单的文本模型.
对于文本分析的下一步,您可以尝试通过预处理数据和使用词云可视化文本数据来提高模型的准确性。有关示例,请参见准备文本数据进行分析和使用文字云可视化文本数据.
tokenizedDocument
|bagOfWords
|编码