主要内容

wordcloud

从文本数据创建词云图

描述

例子

wordcloud (资源描述wordVarsizeVar从表中创建一个词云图资源描述.的变量wordVar而且sizeVar在表格中分别指定单词和单词大小。

例子

wordcloud (单词sizeData的元素创建一个词云图单词指定的字大小SizeData

例子

wordcloud (C从分类数组的唯一元素创建词云图C与频率计数相对应的大小。如果您有文本分析工具箱™,那么C可以是字符串数组、字符向量或字符向量的单元格数组。

例子

wordcloud (___名称,值指定附加的WordCloudChart使用一个或多个名称-值对参数的属性。

wordcloud (___属性指定的图形、面板或选项卡中创建字云

wc= wordcloud (___返回WordCloudChart对象。使用wc创建词云后修改其属性。有关属性列表,请参见WordCloudChart属性

请注意

文本分析工具箱扩展了wordcloud(MATLAB®)函数。它支持直接从字符金宝app串数组创建词云,支持从单词袋模型、n-gram袋模型和LDA主题创建词云。wordcloud(文本分析工具箱)参考页,请参见wordcloud(文本分析工具箱)

例子

全部折叠

加载示例数据sonnetsTable.表资源描述包含变量中的单词列表,对应的频率在变量中计数

负载sonnetsTable头(台)
ans =8×2表字数  ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

绘制表数据wordcloud.指定单词和对应的单词大小为而且变量分别。

图wordcloud(资源描述,“词”“数”);标题(“十四行诗字云”

图中包含一个wordcloud类型的对象。字云类型的图表有标题十四行诗字云。

如果安装了文本分析工具箱™,则可以直接从字符串数组创建单词云。有关更多信息,请参见wordcloud(文本分析工具箱)文本分析工具箱)。如果没有“文本分析工具箱”,则必须手动预处理文本数据。

此示例演示如何从纯文本创建单词云,方法是将其读入字符串数组,对其进行预处理,并将其传递给wordcloud函数。

读莎士比亚的十四行诗fileread函数并将其转换为字符串。

十四行诗=字符串(fileread(“sonnets.txt”));extractBefore(十四行诗,“二世”
【莎士比亚十四行诗一】我们渴望从最美丽的生灵身上繁衍生息,这样美丽的玫瑰就不会凋零,但成熟的生灵会随时间而消逝,他温柔的后代就能继承他的记忆:可是你,对你自己明亮的眼睛过于狭隘,用自我充实的燃料来喂养你光明的火焰,使富足的地方变成饥荒,你自己是你的敌人,对你甜美的自己太残忍了:你现在是世界的新鲜装饰,是艳丽春天的唯一使者,在你自己的花蕾里埋葬你的满足,温柔的粗人在吝啬中浪费:可怜这个世界吧,否则就让这个贪吃的人,以坟墓和你来吞食这个世界应得的。”

分裂十四行诗字符串数组,其元素包含单独的单词。为此,删除标点符号,并将所有字符串元素连接到一个1乘1的字符串中,然后在空格字符上进行分割。然后,删除少于五个字符的单词并将其转换为小写字母。

标点符号= [“。”“?”"!"”、“”;“”:“];sonnets = replace(十四行诗,标点符号,”“);单词= split(join(十四行诗));Words (strlength(Words)<5) = [];单词=较低(单词);单词(1:10)
ans =10 x1字符串"十四行诗" "威廉" "莎士比亚" "最美丽的" "生物" "欲望" "增长" "因此" "美" "力量"

转换十四行诗到一个分类数组,然后绘图使用wordcloud.的唯一元素C与频率计数相对应的大小。

C =分类的(词);图wordcloud (C);标题(“十四行诗字云”

图中包含一个wordcloud类型的对象。字云类型的图表有标题十四行诗字云。

从纯文本创建单词云,方法是将其读入字符串数组,对其进行预处理,并将其传递给wordcloud函数。

读莎士比亚的十四行诗fileread函数并将其转换为字符串。

十四行诗=字符串(fileread(“sonnets.txt”));extractBefore(十四行诗,“二世”
【莎士比亚十四行诗一】我们渴望从最美丽的生灵身上繁衍生息,这样美丽的玫瑰就不会凋零,但成熟的生灵会随时间而消逝,他温柔的后代就能继承他的记忆:可是你,对你自己明亮的眼睛过于狭隘,用自我充实的燃料来喂养你光明的火焰,使富足的地方变成饥荒,你自己是你的敌人,对你甜美的自己太残忍了:你现在是世界的新鲜装饰,是艳丽春天的唯一使者,在你自己的花蕾里埋葬你的满足,温柔的粗人在吝啬中浪费:可怜这个世界吧,否则就让这个贪吃的人,以坟墓和你来吞食这个世界应得的。”

分裂十四行诗字符串数组,其元素包含单独的单词。为此,删除标点符号,并将所有字符串元素连接到一个1乘1的字符串中,然后在空格字符上进行分割。然后,删除少于五个字符的单词并将其转换为小写字母。

标点符号= [“。”“?”"!"”、“”;“”:“];sonnets = replace(十四行诗,标点符号,”“);单词= split(join(十四行诗));Words (strlength(Words)<5) = [];单词=较低(单词);单词(1:10)
ans =10 x1字符串"十四行诗" "威廉" "莎士比亚" "最美丽的" "生物" "欲望" "增长" "因此" "美" "力量"

找出其中独特的单词十四行诗并计算它们的频率。使用频率计数作为大小数据创建一个词云。

[numOccurrences,uniqueWords] = histcounts(categorical(words));图wordcloud (uniqueWords numOccurrences);标题(“十四行诗字云”

图中包含一个wordcloud类型的对象。字云类型的图表有标题十四行诗字云。

加载示例数据sonnetsTable.表资源描述控件中的单词列表变量,并在相应的频率计数变量。

负载sonnetsTable头(台)
ans =8×2表字数  ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

绘制表数据wordcloud.指定单词和对应的单词大小为而且变量分别。若要将单词颜色设置为随机值,请设置“颜色”到随机矩阵或RGB三元组,每个单词一行。

numWords = size(tbl,1);colors = rand(numWords,3);图wordcloud(资源描述,“词”“数”“颜色”、颜色);标题(“十四行诗字云”

图中包含一个wordcloud类型的对象。字云类型的图表有标题十四行诗字云。

如果安装了“文本分析工具箱”,则可以直接从字符串数组创建单词云。如果没有“文本分析工具箱”,则必须手动预处理文本数据。有关显示如何在没有文本分析工具箱的情况下创建文字云的示例,请参见为Word云准备文本数据

从中提取文本sonnets.txt使用extractFileText

str = extractFileText(“sonnets.txt”);extractBefore (str,“二世”
【莎士比亚十四行诗一】我们渴望从最美丽的生灵身上繁衍生息,这样美丽的玫瑰就不会凋零,但成熟的生灵会随时间而消逝,他温柔的后代就能继承他的记忆:可是你,对你自己明亮的眼睛过于狭隘,用自我充实的燃料来喂养你光明的火焰,使富足的地方变成饥荒,你自己是你的敌人,对你甜美的自己太残忍了:你现在是世界的新鲜装饰,是艳丽春天的唯一使者,在你自己的花蕾里埋葬你的满足,温柔的粗人在吝啬中浪费:可怜这个世界吧,否则就让这个贪吃的人,以坟墓和你来吞食这个世界应得的。”

在单词云中显示十四行诗中的单词。

图wordcloud (str);

输入参数

全部折叠

输入表,列指定单词和单词大小。在给出的变量中指定单词和相应的单词大小wordVar而且sizeVar分别输入参数。

数据类型:表格

字数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串

大小数据的表变量,指定为字符串标量、字符向量、数值索引或逻辑向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串

输入分类数据,指定为分类数组。的每个唯一元素C大小对应于histcounts (C)

数据类型:分类

输入单词,指定为字符串向量或字符向量的单元格数组。

数据类型:字符串|细胞

字大小数据,指定为数字向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

父容器,指定为数字面板选项卡TiledChartLayout,或GridLayout对象。

名称-值参数

的可选逗号分隔对名称,值参数。的名字参数名称和价值对应的值。的名字必须出现在引号内。您可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“HighlightColor”、“红”设置高亮颜色为红色。

WordCloudChart这里列出的属性只是一个子集。有关完整列表,请参见WordCloudChart属性

要显示的最大字数,指定为非负整数。软件显示MaxDisplayWords最大的词。

单词颜色,指定为RGB三元组,包含颜色名称的字符向量,或N-by-3矩阵,其中N的长度WordData.如果颜色是一个矩阵,那么每一行对应一个RGB三元组对应的字在WordData

RGB三组和十六进制颜色代码对于指定自定义颜色很有用。

  • RGB三元组是一个三元素行向量,其元素指定颜色的红、绿和蓝分量的强度。强度必须在这个范围内[0, 1];例如,[0.4 0.6 0.7]

  • 十六进制颜色码是字符向量或以散列符号()后面跟着三个或六个十六进制数字,取值范围为0F.这些值不区分大小写。因此,颜色代码“# FF8800”“# ff8800”“# F80”,“# f80”是等价的。

或者,您可以通过名称指定一些常用颜色。该表列出了已命名的颜色选项、等效的RGB三元组和十六进制颜色代码。

颜色名称 短名称 RGB值 十六进制颜色代码 外观
“红色” “r” [10 0 0] “# FF0000”

样品的颜色为红色

“绿色” ‘g’ [0 10 0] “# 00 ff00”

样品的颜色为绿色

“蓝” “b” [0 0 1] “# 0000 ff”

样品的颜色为蓝色

“青色” “c” [0 1 1] “# 00飞行符”

样品的颜色为青色

“红色” “米” [10 0 1] “#就”

样品的颜色为洋红色

“黄色” “y” [11 10 0] “# FFFF00”

样品的颜色为黄色

“黑” “k” [0 0 0] # 000000的

样品颜色为黑色

“白色” ' w ' [1 1 1] “# FFFFFF”

样品颜色为白色

下面是MATLAB在许多类型的图中使用的默认颜色的RGB三组和十六进制颜色代码。

RGB值 十六进制颜色代码 外观
[0 0.4470 0.7410] “# 0072 bd”

RGB三联体[0 0.4470 0.7410]样品,呈深蓝色

[0.8500 0.3250 0.0980] “# D95319”

RGB三联体样品[0.8500 0.3250 0.0980],呈暗橙色

[0.9290 0.6940 0.1250] “# EDB120”

RGB三联体样品[0.9290 0.6940 0.1250],呈暗黄色

[0.4940 0.1840 0.5560] “# 7 e2f8e”

RGB三联体样品[0.4940 0.1840 0.5560],呈深紫色

[0.4660 0.6740 0.1880] “# 77 ac30”

RGB三联体[0.4660 0.6740 0.1880]样本,呈现中绿色

[0.3010 0.7450 0.9330] “# 4 dbeee”

RGB三联体样品[0.3010 0.7450 0.9330],呈浅蓝色

[0.6350 0.0780 0.1840] “# A2142F”

RGB三联体样品[0.6350 0.0780 0.1840],呈暗红色

例子:“蓝”

例子:[0 0 1]

单词高亮显示颜色,指定为RGB三元组,或包含颜色名称的字符向量。软件用这种颜色突出显示最大的单词。

RGB三组和十六进制颜色代码对于指定自定义颜色很有用。

  • RGB三元组是一个三元素行向量,其元素指定颜色的红、绿和蓝分量的强度。强度必须在这个范围内[0, 1];例如,[0.4 0.6 0.7]

  • 十六进制颜色码是字符向量或以散列符号()后面跟着三个或六个十六进制数字,取值范围为0F.这些值不区分大小写。因此,颜色代码“# FF8800”“# ff8800”“# F80”,“# f80”是等价的。

或者,您可以通过名称指定一些常用颜色。该表列出了已命名的颜色选项、等效的RGB三元组和十六进制颜色代码。

颜色名称 短名称 RGB值 十六进制颜色代码 外观
“红色” “r” [10 0 0] “# FF0000”

样品的颜色为红色

“绿色” ‘g’ [0 10 0] “# 00 ff00”

样品的颜色为绿色

“蓝” “b” [0 0 1] “# 0000 ff”

样品的颜色为蓝色

“青色” “c” [0 1 1] “# 00飞行符”

样品的颜色为青色

“红色” “米” [10 0 1] “#就”

样品的颜色为洋红色

“黄色” “y” [11 10 0] “# FFFF00”

样品的颜色为黄色

“黑” “k” [0 0 0] # 000000的

样品颜色为黑色

“白色” ' w ' [1 1 1] “# FFFFFF”

样品颜色为白色

下面是MATLAB在许多类型的图中使用的默认颜色的RGB三组和十六进制颜色代码。

RGB值 十六进制颜色代码 外观
[0 0.4470 0.7410] “# 0072 bd”

RGB三联体[0 0.4470 0.7410]样品,呈深蓝色

[0.8500 0.3250 0.0980] “# D95319”

RGB三联体样品[0.8500 0.3250 0.0980],呈暗橙色

[0.9290 0.6940 0.1250] “# EDB120”

RGB三联体样品[0.9290 0.6940 0.1250],呈暗黄色

[0.4940 0.1840 0.5560] “# 7 e2f8e”

RGB三联体样品[0.4940 0.1840 0.5560],呈深紫色

[0.4660 0.6740 0.1880] “# 77 ac30”

RGB三联体[0.4660 0.6740 0.1880]样本,呈现中绿色

[0.3010 0.7450 0.9330] “# 4 dbeee”

RGB三联体样品[0.3010 0.7450 0.9330],呈浅蓝色

[0.6350 0.0780 0.1840] “# A2142F”

RGB三联体样品[0.6350 0.0780 0.1840],呈暗红色

例子:“蓝”

例子:[0 0 1]

字云图的形状,指定为“椭圆”“矩形”

例子:“矩形”

字放置布局,指定为非负整数。如果你反复打电话wordcloud使用相同的输入,那么字放置布局将是相同的每次。要获得不同的单词放置布局,请使用不同的值LayoutNum

输出参数

全部折叠

WordCloudChart对象。属性的属性WordCloudChart在创建之后。有关更多信息,请参见WordCloudChart属性

提示

文本分析工具箱扩展了wordcloud(MATLAB)功能。它支持直接从字符金宝app串数组创建词云,支持从单词袋模型、n-gram袋模型和LDA主题创建词云。wordcloud(文本分析工具箱)参考页,请参见wordcloud(文本分析工具箱)

扩展功能

在R2017b中引入