主要内容

wordcloud

从文本数据创建云词表

描述

例子

wordcloud (资源描述,wordVar,sizeVar)从表中创建一个词云图表资源描述。的变量wordVarsizeVar表中分别指定文字和文字大小。

例子

wordcloud (单词,sizeData)创建一个云词表的元素单词词所指定的大小SizeData

例子

wordcloud (C)创建一个云词表绝对独特的元素的数组C大小对应于频率计数。如果你有文本分析工具箱™C可以是一个字符串数组,特征向量,或一个单元阵列的特征向量。

例子

wordcloud (___,名称,值)指定附加的WordCloudChart使用一个或多个名称-值对参数属性。

wordcloud (,___)创建这个词云在图中,面板,或指定的选项卡

wc= wordcloud (___)返回WordCloudChart对象。使用wc修改的属性词云在创建它。一个属性列表,看到WordCloudChart属性

请注意

文本分析工具箱的功能延伸wordcloud(MATLAB®)函数。它增加了支持直接金宝app从字符串数组创建词云,云从bag-of-words模型和创建词,bag-of-n-gram模型和LDA的话题。wordcloud(文本分析工具箱)引用页面,看看wordcloud(文本分析工具箱)

例子

全部折叠

加载示例数据sonnetsTable。表资源描述包含一个单词列表中的变量,和相应的频率计数的变量

负载sonnetsTable头(台)
ans =8×2表字数___________ _____{“‘是’}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

表数据使用wordcloud。指定大小的单词和相应的词变量分别。

图wordcloud(资源描述,“词”,“数”);标题(“十四行诗词云”)

图包含一个wordcloud类型的对象。wordcloud类型的图表标题十四行诗词云。”width=

如果你安装了文本分析工具箱™,那么您可以创建词云直接从字符串数组。有关更多信息,请参见wordcloud(文本分析工具箱)(文本分析工具箱)。如果你没有文本分析工具箱,然后您必须手动进行预处理文本数据。

这个例子展示了如何创建一个词云从纯文本阅读它成一个字符串数组,预处理,通过它wordcloud函数。

从莎士比亚的十四行诗读课文fileread功能和将其转换为字符串。

十四行诗=字符串(fileread (“sonnets.txt”));extractBefore(十四行诗,“二世”)
ans = "威廉·莎士比亚的十四行诗我从美丽的生物,我们渴望增加,从而美丽的玫瑰可能永远不会死,但随着成熟应该随着时间流逝,他的他的记忆交给娇嫩的后嗣:但你承包你的明亮的眼睛,饲料刻画你的光的火焰定情,燃料,饥荒丰富所在,你的自我你的敌人,你的甜蜜的自我太残忍:你现在艺术世界的新鲜的点缀,只有春天的华而不实的使者,在你自己的花蕾埋葬你的内容,和温柔的乡下人mak浪费在吝啬鬼:遗憾的世界,否则这贪吃的人,吃的世界,由你和坟墓。”

分裂十四行诗成一个字符串数组的元素包含单个单词。要做到这一点,去掉标点符号和加入的所有字符串元素为1×1字符串然后空格字符分割。然后,删除单词少于5个字符和单词转换为小写。

punctuationCharacters = [“。”“?”“啊!””、“”;“”:“];十四行诗=取代(punctuationCharacters十四行诗,”“);话说=分裂(加入(十四行诗));单词(strlength(字)< 5)= [];话说=低(单词);单词(1:10)
ans =10 x1字符串“十四行诗”“威廉”“莎士比亚”“公平”“生物”“希望”“增加”“从而”“美”“可能”

转换十四行诗分类数组,然后使用wordcloud。情节的独特元素的函数C大小对应于频率计数。

C =分类(单词);图wordcloud (C);标题(“十四行诗词云”)

图包含一个wordcloud类型的对象。wordcloud类型的图表标题十四行诗词云。”width=

创建一个词云从纯文本阅读它成一个字符串数组,预处理,通过它wordcloud函数。

从莎士比亚的十四行诗读课文fileread功能和将其转换为字符串。

十四行诗=字符串(fileread (“sonnets.txt”));extractBefore(十四行诗,“二世”)
ans = "威廉·莎士比亚的十四行诗我从美丽的生物,我们渴望增加,从而美丽的玫瑰可能永远不会死,但随着成熟应该随着时间流逝,他的他的记忆交给娇嫩的后嗣:但你承包你的明亮的眼睛,饲料刻画你的光的火焰定情,燃料,饥荒丰富所在,你的自我你的敌人,你的甜蜜的自我太残忍:你现在艺术世界的新鲜的点缀,只有春天的华而不实的使者,在你自己的花蕾埋葬你的内容,和温柔的乡下人mak浪费在吝啬鬼:遗憾的世界,否则这贪吃的人,吃的世界,由你和坟墓。”

分裂十四行诗成一个字符串数组的元素包含单个单词。要做到这一点,去掉标点符号和加入的所有字符串元素为1×1字符串然后空格字符分割。然后,删除单词少于5个字符和单词转换为小写。

punctuationCharacters = [“。”“?”“啊!””、“”;“”:“];十四行诗=取代(punctuationCharacters十四行诗,”“);话说=分裂(加入(十四行诗));单词(strlength(字)< 5)= [];话说=低(单词);单词(1:10)
ans =10 x1字符串“十四行诗”“威廉”“莎士比亚”“公平”“生物”“希望”“增加”“从而”“美”“可能”

找到独特的词十四行诗和计数频率。创建一个云词使用频率计数数据大小。

[numOccurrences, uniqueWords] = histcounts(分类(字));图wordcloud (uniqueWords numOccurrences);标题(“十四行诗词云”)

图包含一个wordcloud类型的对象。wordcloud类型的图表标题十四行诗词云。”width=

加载示例数据sonnetsTable。表资源描述包含一个单词的列表变量和相应的频率计数变量。

负载sonnetsTable头(台)
ans =8×2表字数___________ _____{“‘是’}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

表数据使用wordcloud。指定大小的单词和相应的词变量分别。设置文字颜色随机值,设置“颜色”随机矩阵或RGB三胞胎对每个单词一行。

numWords =大小(1台);颜色=兰德(numWords, 3);图wordcloud(资源描述,“词”,“数”,“颜色”、颜色);标题(“十四行诗词云”)

图包含一个wordcloud类型的对象。wordcloud类型的图表标题十四行诗词云。”width=

如果你安装了文本分析工具箱,那么您可以创建词云直接从字符串数组。如果你没有文本分析工具箱,然后您必须手动进行预处理文本数据。对于一个例子,演示如何创建一个词云没有文本分析工具箱,明白了文本数据准备词云

提取的文本sonnets.txt使用extractFileText

str = extractFileText (“sonnets.txt”);extractBefore (str,“二世”)
ans = "威廉·莎士比亚的十四行诗我从美丽的生物,我们渴望增加,从而美丽的玫瑰可能永远不会死,但随着成熟应该随着时间流逝,他的他的记忆交给娇嫩的后嗣:但你承包你的明亮的眼睛,饲料刻画你的光的火焰定情,燃料,饥荒丰富所在,你的自我你的敌人,你的甜蜜的自我太残忍:你现在艺术世界的新鲜的点缀,只有春天的华而不实的使者,在你自己的花蕾埋葬你的内容,和温柔的乡下人mak浪费在吝啬鬼:遗憾的世界,否则这贪吃的人,吃的世界,由你和坟墓。”

显示文字云十四行诗的一个词。

图wordcloud (str);

输入参数

全部折叠

输入表,列指定单词和单词的大小。指定的单词和相应的字大小的变量wordVarsizeVar分别输入参数。

数据类型:

表变量数据,指定为一个字符串标量,特征向量,数值指数,或一个逻辑向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串

表变量尺寸数据,指定为字符串标量,特征向量,数值指数,或一个逻辑向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串

输入分类数据,指定为一个分类数组。每个独特的元素的功能块C与大小对应于histcounts (C)

数据类型:分类

输入单词,指定为一个字符串向量或单元阵列的特征向量。

数据类型:字符串|细胞

字大小数据,指定为一个数值向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

指定为一个父容器,面板,选项卡,TiledChartLayout,或GridLayout对象。

名称-值参数

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:“HighlightColor”、“红”突出的颜色设置为红色。

WordCloudChart这里列出的属性是唯一的一个子集。一个完整的列表,请参阅WordCloudChart属性

要显示最大数量的单词,指定为一个非负整数。软件显示MaxDisplayWords最大的词。

字的颜色,指定为一个RGB值,特征向量包含一个颜色的名字,或一个N3矩阵N的长度是WordData。如果颜色是一个矩阵,那么每一行对应一个RGB值对应的词吗WordData

RGB三胞胎和十六进制颜色代码可用于指定自定义颜色。

  • 一个RGB值三元素行向量的元素指定强度的红色,绿色和蓝色的组件的颜色。强度必须在范围内[0,1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是一个特征向量或一个字符串标量,始于一个散列符号(#)后面跟着三个月或六个十六进制数字,它的范围可以从0F。的值是不区分大小写的。因此,颜色代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。

或者,您可以指定一些常见颜色的名字。此表列出了命名颜色选项,相当于RGB三胞胎,十六进制颜色代码。

颜色名称 短名称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色的示例”height=

“绿色” ‘g’ (0 1 0) “# 00 ff00”

样品的颜色绿色”height=

“蓝” “b” (0 0 1) “# 0000 ff”

样品的颜色蓝色”height=

“青色” “c” (0 1 1) “# 00飞行符”

样品的颜色青色”height=

“红色” “米” (1 0 1) “#就”

样品的颜色红色”height=

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色黄色”height=

“黑” “k” (0 0 0) # 000000的

样品的颜色黑色”height=

“白色” ' w ' (1 1 1) “# FFFFFF”

样品的颜色白色”height=

这是默认颜色的RGB三胞胎和十六进制颜色编码MATLAB使用在许多类型的情节。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) “# 0072 bd”

样本的RGB值(0 0.4470 - 0.7410),显示为深蓝色”height=

(0.8500 0.3250 0.0980) “# D95319”

样本的RGB值(0.8500 0.3250 0.0980),它表现为暗橙”height=

(0.9290 0.6940 0.1250) “# EDB120”

样本的RGB值(0.9290 0.6940 0.1250),它表现为暗黄色”height=

(0.4940 0.1840 0.5560) “# 7 e2f8e”

样本的RGB值(0.4940 0.1840 0.5560),它表现为深紫色”height=

(0.4660 0.6740 0.1880) “# 77 ac30”

样本的RGB值(0.4660 0.6740 0.1880),它表现为中绿色”height=

(0.3010 0.7450 0.9330) “# 4 dbeee”

样本的RGB值(0.3010 0.7450 0.9330),它表现为浅蓝色”height=

(0.6350 0.0780 0.1840) “# A2142F”

样本的RGB值(0.6350 0.0780 0.1840),它表现为深红色”height=

例子:“蓝”

例子:(0 0 1)

词突出颜色,指定为一个RGB值,或者一个特征向量包含一个颜色的名字。该软件最大凸显了与这种颜色词。

RGB三胞胎和十六进制颜色代码可用于指定自定义颜色。

  • 一个RGB值三元素行向量的元素指定强度的红色,绿色和蓝色的组件的颜色。强度必须在范围内[0,1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是一个特征向量或一个字符串标量,始于一个散列符号(#)后面跟着三个月或六个十六进制数字,它的范围可以从0F。的值是不区分大小写的。因此,颜色代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。

或者,您可以指定一些常见颜色的名字。此表列出了命名颜色选项,相当于RGB三胞胎,十六进制颜色代码。

颜色名称 短名称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色的示例”height=

“绿色” ‘g’ (0 1 0) “# 00 ff00”

样品的颜色绿色”height=

“蓝” “b” (0 0 1) “# 0000 ff”

样品的颜色蓝色”height=

“青色” “c” (0 1 1) “# 00飞行符”

样品的颜色青色”height=

“红色” “米” (1 0 1) “#就”

样品的颜色红色”height=

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色黄色”height=

“黑” “k” (0 0 0) # 000000的

样品的颜色黑色”height=

“白色” ' w ' (1 1 1) “# FFFFFF”

样品的颜色白色”height=

这是默认颜色的RGB三胞胎和十六进制颜色编码MATLAB使用在许多类型的情节。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) “# 0072 bd”

样本的RGB值(0 0.4470 - 0.7410),显示为深蓝色”height=

(0.8500 0.3250 0.0980) “# D95319”

样本的RGB值(0.8500 0.3250 0.0980),它表现为暗橙”height=

(0.9290 0.6940 0.1250) “# EDB120”

样本的RGB值(0.9290 0.6940 0.1250),它表现为暗黄色”height=

(0.4940 0.1840 0.5560) “# 7 e2f8e”

样本的RGB值(0.4940 0.1840 0.5560),它表现为深紫色”height=

(0.4660 0.6740 0.1880) “# 77 ac30”

样本的RGB值(0.4660 0.6740 0.1880),它表现为中绿色”height=

(0.3010 0.7450 0.9330) “# 4 dbeee”

样本的RGB值(0.3010 0.7450 0.9330),它表现为浅蓝色”height=

(0.6350 0.0780 0.1840) “# A2142F”

样本的RGB值(0.6350 0.0780 0.1840),它表现为深红色”height=

例子:“蓝”

例子:(0 0 1)

词云的形状图,指定为“椭圆”“矩形”

例子:“矩形”

词位置布局,指定为一个非负整数。如果你反复调用wordcloud相同的输入,那么这个词位置布局每次都将是相同的。得到不同的词位置布局,使用不同的值LayoutNum

输出参数

全部折叠

WordCloudChart对象。您可以修改的属性WordCloudChart之后它创建。有关更多信息,请参见WordCloudChart属性

提示

文本分析工具箱的功能延伸wordcloud(MATLAB)功能。它增加了支持直接金宝app从字符串数组创建词云,云从bag-of-words模型和创建词,bag-of-n-gram模型和LDA的话题。wordcloud(文本分析工具箱)引用页面,看看wordcloud(文本分析工具箱)

扩展功能

介绍了R2017b