主要内容

wordcloud

从文本、单词袋模型、n字袋模型或LDA模型创建单词云图

描述

文本分析工具箱™ 扩展了wordcloud(MATLAB)®)它增加了直接从字符串数组创建单词云的支金宝app持,以及从单词包模型、n-gram模型和LDA主题创建单词云的支持。如果未安装文本分析工具箱,请参见wordcloud

实例

wordcloud (str)通过对中的文本进行标记化和预处理,创建单词云图str,然后显示与单词频率计数相对应的单词大小。此语法支持英语、日语、德金宝app语和韩语文本。

实例

wordcloud (文件)从中显示的单词创建单词云图文件

实例

wordcloud (纸袋)从单词袋或n-grams模型中创建单词云图纸袋

实例

wordcloud (资源描述,wordVar,西泽瓦)从表中创建单词云图资源描述.变量wordVar西泽瓦在表中分别指定单词和单词大小。

wordcloud (,西泽达)从元素创建一个词云图字号由指定西泽达

wordcloud (C)从类别数组的元素创建一个词云图C使用频率计数。

实例

wordcloud (ldaMdl,topicIdx)使用索引从主题创建单词云图topicIdxLDA模型ldaMdl

wordcloud (___,名称、值)指定附加的WordCloudChart使用一个或多个名称-值对参数的属性。

wordcloud (父母亲,___)在指定的图形、面板或选项卡中创建单词cloud父母亲

厕所=字云(___)返回WordCloudChart对象。使用厕所创建word cloud后修改其属性的步骤。有关属性列表,请参见WordCloudChart属性

例子

全部崩溃

将文本从sonnets.txt使用提取文件文本并展示第一首十四行诗的文本。

str = extractFileText (“十四行诗.txt”);extractBefore (str,“二世”)
ans="威廉·莎士比亚十四行诗第一首我们所渴望的最美丽的生物的十四行诗,美丽的玫瑰也许永远不会凋谢,但随着时间的流逝,成熟的玫瑰可能会留下他的记忆。但是你,与你自己明亮的眼睛签约,用自足的燃料喂养你的火焰,在富足的地方制造饥荒,你的灵魂如果你的敌人对你甜蜜的自我过于残忍:你现在是世界上最新的装饰,是花哨春天的唯一使者,在你自己的花蕾里埋藏着你的内容,温柔的孩子浪费在吝啬上:可怜这个世界吧,否则这个贪吃的人,就吃世界应得的东西,由坟墓和你。”

在单词云中显示十四行诗中的单词。

图:wordcloud(str);

图中包含一个wordcloud类型的对象。

加载示例数据sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后标记文档。

文件名=“十四行诗预处理.txt”;str=extractFileText(文件名);textData=split(str,换行符);documents=tokenizedDocument(textData);

使用word cloud可视化文档。

图wordcloud(文档);

图中包含一个wordcloud类型的对象。

加载示例数据sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后标记文档。

文件名=“十四行诗预处理.txt”;str=extractFileText(文件名);textData=split(str,换行符);documents=tokenizedDocument(textData);

创建一个词袋模型使用巴格沃兹

袋= bagOfWords(文档)
有属性的单词:计数:[154x3092 double]词汇:[“最公平的”“生物”“欲望”…]NumWords:3092 NumDocuments:154

使用单词云可视化单词袋模型。

图wordcloud(包);

图中包含一个wordcloud类型的对象。

加载示例数据sonnetsTable.桌子资源描述包含变量中的单词列表,以及变量中相应的频率计数

负载sonnetsTable总目(待定)
ans =8×2表字数{uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu{1{uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

使用以下命令绘制表格数据:wordcloud.属性指定单词和相应的单词大小变量分别。

图:wordcloud(待定,“单词”,“伯爵”);标题(“十四行诗词云”)

图中包含一个wordcloud类型的对象。文字云类型的图表有标题十四行诗文字云。

要重现本例中的结果,请设置rng“默认”

rng (“默认”)

加载示例数据sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后标记文档。

文件名=“十四行诗预处理.txt”;str=extractFileText(文件名);textData=split(str,换行符);documents=tokenizedDocument(textData);

创建一个词袋模型使用巴格沃兹

袋= bagOfWords(文档)
有属性的单词:计数:[154x3092 double]词汇:[“最公平的”“生物”“欲望”…]NumWords:3092 NumDocuments:154

拟合具有20个主题的LDA模型。要抑制verbose输出,请设置“详细”为0。

mdl=fitlda(袋,20,“详细”, 0)
mdl = ldaModel with properties: NumTopics: 20 WordConcentration: 1 TopicConcentration: 5 corpustopic概率:[0.0500 0.0500 0.0500 0.0500 0.0500…词汇:[“最公平的”“生物”…TopicOrder: 'initial-fit-probability'

使用单词云可视化前四个主题。

图形对于topicIdx = 1:4 subplot(2,2,topicIdx) wordcloud(mdl,topicIdx);标题(主题:“+ topicIdx)终止

图中包含wordcloud类型的对象。wordcloud类型的图表具有标题主题:1。wordcloud类型的图表具有标题主题:2。wordcloud类型的图表具有标题主题:3。wordcloud类型的图表具有标题主题:4。

输入参数

全部崩溃

输入文本,指定为字符串数组、字符向量或字符向量的单元格数组。

对于字符串输入wordcloud字数函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。

例子:["一个短文档的例子";"第二个短文档"]

数据类型:一串|字符|单间牢房

输入文档,指定为标记化文档大堆

输入表,列指定单词和单词大小。在给定的变量中指定单词和相应的单词大小wordVar西泽瓦分别输入参数。

数据类型:桌子

word数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。

数据类型:仅有一个的||int8|int16|int32|int64|uint8|uint16|uint32|uint64|必然的|字符|一串

大小数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。

数据类型:仅有一个的||int8|int16|int32|int64|uint8|uint16|uint32|uint64|必然的|字符|一串

输入字,指定为字符串向量或字符向量的单元格数组。

数据类型:一串|单间牢房

字大小数据,指定为数字向量。

数据类型:仅有一个的||int8|int16|int32|int64|uint8|uint16|uint32|uint64

输入分类数据,指定为分类数组。该函数绘制C大小对应于历史计数(C)

数据类型:分类

输入字袋或n字袋模型,指定为巴格沃兹物体或物体巴戈夫克对象如果纸袋是一个巴戈夫克对象,则该函数将每个n-gram视为一个单词。

输入LDA模型,指定为阿尔达莫代尔对象。

LDA主题索引,指定为非负整数。

指定为图形、面板或制表符的父级。

名称值参数

指定可选的逗号分隔的字符对名称、值参数。名称是参数名和价值是对应的值。名称必须出现在引号内。您可以按任意顺序指定多个名称和值对参数,如下所示:Name1, Value1,…,的家

例子:“HighlightColor”,“蓝色”指定突出显示颜色为蓝色。

这个WordCloudChart此处列出的属性只是一个子集。有关完整列表,请参阅WordCloudChart属性

要显示的最大字数,指定为非负整数。软件显示MaxDisplayWords最大的单词。

单词颜色,指定为RGB三元组、包含颜色名称的字符向量或N3矩阵N长度是多少文字数据如果颜色是一个矩阵,则每行对应于中对应字的RGB三元组文字数据

RGB三元组和十六进制颜色代码用于指定自定义颜色。

  • RGB三元组是一个三元素行向量,其元素指定颜色的红色、绿色和蓝色分量的强度。强度必须在范围内[0,1]例如[0.4 0.6 0.7]

  • 十六进制颜色代码是以哈希符号开头的字符向量或字符串标量(#),然后是3个或6个十六进制数字,其范围可以是0F。值不区分大小写。因此,颜色代码“#FF8800”,“#ff8800”,“#F80”“#f80”它们是等价的。

或者,您可以通过名称指定一些常用颜色。此表列出了命名颜色选项、等效RGB三元组和十六进制颜色代码。

颜色名称 短名称 RGB三重态 十六进制色码 外貌
“红色” “r” [1 0 0] “#FF0000”

样品的颜色为红色

“绿色” ‘g’ (0 1 0) “#00FF00”

样品的颜色为绿色

“蓝” “b” (0 0 1) #0000FF"

蓝色样品

“青色” “c” (0 1 1) “# 00飞行符”

青色样品

“红色” “米” [1 0 1] “#就”

品红色样品

“黄色” “是的” [1 1 0] "FFFF00"

黄色样品

“黑色” “k” (0 0 0) # 000000的

黑色样品

“白色” “w” [1 1 1] "FFFFFF"

白色样品

以下是MATLAB在多种绘图类型中使用的默认颜色的RGB三元组和十六进制颜色代码。

RGB三重态 十六进制色码 外貌
[0 0.4470 0.7410] “# 0072 bd”

RGB三元组样本[0 0.4470 0.7410],呈现深蓝色

[0.8500 0.3250 0.0980] "D95319"

RGB三联体样品[0.8500 0.3250 0.0980],呈深橙色

[0.9290 0.6940 0.1250] "EDB120"

RGB三联体样品[0.9290 0.6940 0.1250],呈深黄色

(0.4940 0.1840 0.5560) "7E2F8E"

RGB三联体样品[0.4940 0.1840 0.5560],呈深紫色

[0.4660 0.6740 0.1880] “# 77 ac30”

RGB三联体样品[0.4660 0.6740 0.1880],呈中绿色

(0.3010 0.7450 0.9330) “# 4 dbeee”

样品RGB三片[0.3010 0.7450 0.9330],显示为浅蓝色

[0.6350 0.0780 0.1840] "A2142F"

RGB三元组样本[0.6350 0.0780 0.1840],呈暗红色

例子:“蓝”

例子:(0 0 1)

字高亮颜色,指定为RGB三元组或包含颜色名称的字符向量。软件会用这种颜色突出最大的单词。

RGB三元组和十六进制颜色代码用于指定自定义颜色。

  • RGB三元组是一个三元素行向量,其元素指定颜色的红色、绿色和蓝色分量的强度。强度必须在范围内[0,1]例如[0.4 0.6 0.7]

  • 十六进制颜色代码是以哈希符号开头的字符向量或字符串标量(#),然后是3个或6个十六进制数字,其范围可以是0F。值不区分大小写。因此,颜色代码“#FF8800”,“#ff8800”,“#F80”“#f80”它们是等价的。

或者,您可以通过名称指定一些常用颜色。此表列出了命名颜色选项、等效RGB三元组和十六进制颜色代码。

颜色名称 短名称 RGB三重态 十六进制色码 外貌
“红色” “r” [1 0 0] “#FF0000”

样品的颜色为红色

“绿色” ‘g’ (0 1 0) “#00FF00”

样品的颜色为绿色

“蓝” “b” (0 0 1) #0000FF"

蓝色样品

“青色” “c” (0 1 1) “# 00飞行符”

青色样品

“红色” “米” [1 0 1] “#就”

品红色样品

“黄色” “是的” [1 1 0] "FFFF00"

黄色样品

“黑色” “k” (0 0 0) # 000000的

黑色样品

“白色” “w” [1 1 1] "FFFFFF"

白色样品

以下是MATLAB在多种绘图类型中使用的默认颜色的RGB三元组和十六进制颜色代码。

RGB三重态 十六进制色码 外貌
[0 0.4470 0.7410] “# 0072 bd”

RGB三元组样本[0 0.4470 0.7410],呈现深蓝色

[0.8500 0.3250 0.0980] "D95319"

RGB三联体样品[0.8500 0.3250 0.0980],呈深橙色

[0.9290 0.6940 0.1250] "EDB120"

RGB三联体样品[0.9290 0.6940 0.1250],呈深黄色

(0.4940 0.1840 0.5560) "7E2F8E"

RGB三联体样品[0.4940 0.1840 0.5560],呈深紫色

[0.4660 0.6740 0.1880] “# 77 ac30”

RGB三联体样品[0.4660 0.6740 0.1880],呈中绿色

(0.3010 0.7450 0.9330) “# 4 dbeee”

样品RGB三片[0.3010 0.7450 0.9330],显示为浅蓝色

[0.6350 0.0780 0.1840] "A2142F"

RGB三元组样本[0.6350 0.0780 0.1840],呈暗红色

例子:“蓝”

例子:(0 0 1)

单词云图的形状,指定为“椭圆形”“矩形”

例子:“矩形”

输出参数

全部崩溃

WordCloudChart对象。您可以修改WordCloudChart创建后。有关详细信息,请参阅WordCloudChart属性

更多关于

全部崩溃

语言的注意事项

对于字符串输入wordcloud字数函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。

对于其他语言,您可能需要手动预处理您的文本数据,并指定唯一的单词和相应的大小wordcloud

在中指定字号的步骤wordcloud,将数据输入为包含唯一单词和相应大小的表或数组。

在R2017b中引入