这个例子展示了如何使用单词云可视化文本数据。
文本分析工具箱扩展的功能wordcloud
(MATLAB)功能。它支持直接从字符金宝app串数组创建Word云,并从单词袋式模型和LDA主题创建单词云。
加载示例数据。该文件factoryReports.csv
包含出厂报告,包括每个事件的文本描述和分类标签。
文件名=“factoryreports.csv”;台= readtable(文件名,“TextType”,“字符串”);
从中提取文本数据描述
列。
textdata = tbl.description;TextData(1:10)
ans =10 x1字符串“物品偶尔会卡在扫描仪的线轴上。”“组装器的活塞发出响亮的咔嗒咔嗒和砰砰的声音。”“启动核电站时,电力会被切断。”“组装器里的电容器被炸了。”“搅拌机把保险丝弄坏了。”"爆破管道中施工剂正在喷洒冷却剂""搅拌机里的保险丝烧断了"“事情继续从腰带上滑落。”“从传送带上掉下来的东西。”扫描卷轴一旦分开,很快就会开始弯曲。
从报告中创建一个单词云。
图wordcloud (textData);标题(“工厂报告”)
将报告中的单词与标签进行比较“泄漏”
和“机械故障”
.为每个标签创建报告的词云。为每个单词云分别指定单词颜色为蓝色和品红。
图标签= tbl.Category;Subplot (1,2,1) idx = labels ==“泄漏”;wordcloud (textData (idx),“颜色”,“蓝”);标题(“泄漏”idx = label = label . label = label . label = label . label = label . label = label . label = label . label = label . label = label“机械故障”;wordcloud (textData (idx),“颜色”,'品红');标题(“机械故障”)
比较报告中的紧急词“低”、“中”和“高”。
figure urgent = tbl. urgent;Subplot (1,3,1) idx =紧急==“低”;wordcloud (textData (idx));标题(“紧迫性:低”)子图(1,3,2)idx =紧急==“中等的”;wordcloud (textData (idx));标题(“紧迫性:媒介”)子图(1,3,3)idx =紧急==“高”;wordcloud (textData (idx));标题(“紧急:高”)
将成本报告中以数百美元报告的单词与成本报告中以数千美元报告的单词进行比较。分别用蓝色和红色的高亮颜色为每个数量创建报表的词云。
成本= tbl.Cost;Idx =成本> 100;图wordcloud (textData (idx),“HighlightColor”,“蓝”);标题(“成本> 100美元”)
Idx =成本> 1000;图wordcloud (textData (idx),“HighlightColor”,“红色”);标题(“成本> 1000美元”)