wordcloud
从文本数据创建词云图
语法
描述
wordcloud (
属性指定的图形、面板或选项卡中创建字云父
,___)父
.
返回wc
= wordcloud (___)WordCloudChart
对象。使用wc
创建词云后修改其属性。有关属性列表,请参见WordCloudChart属性.
请注意
文本分析工具箱扩展了wordcloud
(MATLAB®)函数。它支持直接从字符金宝app串数组创建词云,支持从单词袋模型、n-gram袋模型和LDA主题创建词云。为wordcloud
(文本分析工具箱)参考页,请参见wordcloud
(文本分析工具箱).
例子
从表格创建字云
加载示例数据sonnetsTable
.表资源描述
包含变量中的单词列表词
,对应的频率在变量中计数数
.
负载sonnetsTable头(台)
ans =8×2表字数 ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1
绘制表数据wordcloud
.指定单词和对应的单词大小为词
而且数
变量分别。
图wordcloud(资源描述,“词”,“数”);标题(“十四行诗字云”)
为Word云准备文本数据
如果安装了文本分析工具箱™,则可以直接从字符串数组创建单词云。有关更多信息,请参见wordcloud
(文本分析工具箱)文本分析工具箱)。如果没有“文本分析工具箱”,则必须手动预处理文本数据。
此示例演示如何从纯文本创建单词云,方法是将其读入字符串数组,对其进行预处理,并将其传递给wordcloud
函数。
读莎士比亚的十四行诗fileread
函数并将其转换为字符串。
十四行诗=字符串(fileread(“sonnets.txt”));extractBefore(十四行诗,“二世”)
【莎士比亚十四行诗一】我们渴望从最美丽的生灵身上繁衍生息,这样美丽的玫瑰就不会凋零,但成熟的生灵会随时间而消逝,他温柔的后代就能继承他的记忆:可是你,对你自己明亮的眼睛过于狭隘,用自我充实的燃料来喂养你光明的火焰,使富足的地方变成饥荒,你自己是你的敌人,对你甜美的自己太残忍了:你现在是世界的新鲜装饰,是艳丽春天的唯一使者,在你自己的花蕾里埋葬你的满足,温柔的粗人在吝啬中浪费:可怜这个世界吧,否则就让这个贪吃的人,以坟墓和你来吞食这个世界应得的。”
分裂十四行诗
字符串数组,其元素包含单独的单词。为此,删除标点符号,并将所有字符串元素连接到一个1乘1的字符串中,然后在空格字符上进行分割。然后,删除少于五个字符的单词并将其转换为小写字母。
标点符号= [“。”“?”"!"”、“”;“”:“];sonnets = replace(十四行诗,标点符号,”“);单词= split(join(十四行诗));Words (strlength(Words)<5) = [];单词=较低(单词);单词(1:10)
ans =10 x1字符串"十四行诗" "威廉" "莎士比亚" "最美丽的" "生物" "欲望" "增长" "因此" "美" "力量"
转换十四行诗
到一个分类数组,然后绘图使用wordcloud
.的唯一元素C
与频率计数相对应的大小。
C =分类的(词);图wordcloud (C);标题(“十四行诗字云”)
指定字数
从纯文本创建单词云,方法是将其读入字符串数组,对其进行预处理,并将其传递给wordcloud
函数。
读莎士比亚的十四行诗fileread
函数并将其转换为字符串。
十四行诗=字符串(fileread(“sonnets.txt”));extractBefore(十四行诗,“二世”)
【莎士比亚十四行诗一】我们渴望从最美丽的生灵身上繁衍生息,这样美丽的玫瑰就不会凋零,但成熟的生灵会随时间而消逝,他温柔的后代就能继承他的记忆:可是你,对你自己明亮的眼睛过于狭隘,用自我充实的燃料来喂养你光明的火焰,使富足的地方变成饥荒,你自己是你的敌人,对你甜美的自己太残忍了:你现在是世界的新鲜装饰,是艳丽春天的唯一使者,在你自己的花蕾里埋葬你的满足,温柔的粗人在吝啬中浪费:可怜这个世界吧,否则就让这个贪吃的人,以坟墓和你来吞食这个世界应得的。”
分裂十四行诗
字符串数组,其元素包含单独的单词。为此,删除标点符号,并将所有字符串元素连接到一个1乘1的字符串中,然后在空格字符上进行分割。然后,删除少于五个字符的单词并将其转换为小写字母。
标点符号= [“。”“?”"!"”、“”;“”:“];sonnets = replace(十四行诗,标点符号,”“);单词= split(join(十四行诗));Words (strlength(Words)<5) = [];单词=较低(单词);单词(1:10)
ans =10 x1字符串"十四行诗" "威廉" "莎士比亚" "最美丽的" "生物" "欲望" "增长" "因此" "美" "力量"
找出其中独特的单词十四行诗
并计算它们的频率。使用频率计数作为大小数据创建一个词云。
[numOccurrences,uniqueWords] = histcounts(categorical(words));图wordcloud (uniqueWords numOccurrences);标题(“十四行诗字云”)
指定单词颜色
加载示例数据sonnetsTable
.表资源描述
控件中的单词列表词
变量,并在相应的频率计数数
变量。
负载sonnetsTable头(台)
ans =8×2表字数 ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1
绘制表数据wordcloud
.指定单词和对应的单词大小为词
而且数
变量分别。若要将单词颜色设置为随机值,请设置“颜色”
到随机矩阵或RGB三元组,每个单词一行。
numWords = size(tbl,1);colors = rand(numWords,3);图wordcloud(资源描述,“词”,“数”,“颜色”、颜色);标题(“十四行诗字云”)
使用创建Word云文本分析工具箱
如果安装了“文本分析工具箱”,则可以直接从字符串数组创建单词云。如果没有“文本分析工具箱”,则必须手动预处理文本数据。有关显示如何在没有文本分析工具箱的情况下创建文字云的示例,请参见为Word云准备文本数据.
从中提取文本sonnets.txt
使用extractFileText
.
str = extractFileText(“sonnets.txt”);extractBefore (str,“二世”)
【莎士比亚十四行诗一】我们渴望从最美丽的生灵身上繁衍生息,这样美丽的玫瑰就不会凋零,但成熟的生灵会随时间而消逝,他温柔的后代就能继承他的记忆:可是你,对你自己明亮的眼睛过于狭隘,用自我充实的燃料来喂养你光明的火焰,使富足的地方变成饥荒,你自己是你的敌人,对你甜美的自己太残忍了:你现在是世界的新鲜装饰,是艳丽春天的唯一使者,在你自己的花蕾里埋葬你的满足,温柔的粗人在吝啬中浪费:可怜这个世界吧,否则就让这个贪吃的人,以坟墓和你来吞食这个世界应得的。”
在单词云中显示十四行诗中的单词。
图wordcloud (str);
输入参数
wordVar
- - - - - -表变量字数据
字符串标量|特征向量|数字索引|逻辑向量
字数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。
数据类型:单
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
|逻辑
|字符
|字符串
sizeVar
- - - - - -表变量的大小数据
字符串标量|特征向量|数字索引|逻辑向量
大小数据的表变量,指定为字符串标量、字符向量、数值索引或逻辑向量。
数据类型:单
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
|逻辑
|字符
|字符串
C
- - - - - -输入分类数据
分类数组
输入分类数据,指定为分类数组。的每个唯一元素C
大小对应于histcounts (C)
.
数据类型:分类
单词
- - - - - -输入单词
字符串向量|字符向量的单元格数组
输入单词,指定为字符串向量或字符向量的单元格数组。
数据类型:字符串
|细胞
sizeData
- - - - - -字数数据
数值向量
字大小数据,指定为数字向量。
数据类型:单
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
父
- - - - - -父容器
数字
对象|面板
对象|选项卡
对象|TiledChartLayout
对象|GridLayout
对象
父容器,指定为数字
,面板
,选项卡
,TiledChartLayout
,或GridLayout
对象。
名称-值参数
的可选逗号分隔对名称,值
参数。的名字
参数名称和价值
对应的值。的名字
必须出现在引号内。您可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家
.
“HighlightColor”、“红”
设置高亮颜色为红色。
的WordCloudChart
这里列出的属性只是一个子集。有关完整列表,请参见WordCloudChart属性.
MaxDisplayWords
- - - - - -要显示的最大字数
One hundred.(默认)|非负整数
要显示的最大字数,指定为非负整数。软件显示MaxDisplayWords
最大的词。
颜色
- - - - - -字的颜色
[0.2510 0.2510 0.2510]
(默认)|RGB值|包含颜色名称的字符向量|矩阵
单词颜色,指定为RGB三元组,包含颜色名称的字符向量,或N
-by-3矩阵,其中N
的长度WordData
.如果颜色
是一个矩阵,那么每一行对应一个RGB三元组对应的字在WordData
.
RGB三组和十六进制颜色代码对于指定自定义颜色很有用。
RGB三元组是一个三元素行向量,其元素指定颜色的红、绿和蓝分量的强度。强度必须在这个范围内
[0, 1]
;例如,[0.4 0.6 0.7]
.十六进制颜色码是字符向量或以散列符号(
#
)后面跟着三个或六个十六进制数字,取值范围为0
来F
.这些值不区分大小写。因此,颜色代码“# FF8800”
,“# ff8800”
,“# F80”
,“# f80”
是等价的。
或者,您可以通过名称指定一些常用颜色。该表列出了已命名的颜色选项、等效的RGB三元组和十六进制颜色代码。
颜色名称 | 短名称 | RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|---|---|
“红色” |
“r” |
[10 0 0] |
“# FF0000” |
|
“绿色” |
‘g’ |
[0 10 0] |
“# 00 ff00” |
|
“蓝” |
“b” |
[0 0 1] |
“# 0000 ff” |
|
“青色” |
“c” |
[0 1 1] |
“# 00飞行符” |
|
“红色” |
“米” |
[10 0 1] |
“#就” |
|
“黄色” |
“y” |
[11 10 0] |
“# FFFF00” |
|
“黑” |
“k” |
[0 0 0] |
# 000000的 |
|
“白色” |
' w ' |
[1 1 1] |
“# FFFFFF” |
|
下面是MATLAB在许多类型的图中使用的默认颜色的RGB三组和十六进制颜色代码。
RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|
[0 0.4470 0.7410] |
“# 0072 bd” |
|
[0.8500 0.3250 0.0980] |
“# D95319” |
|
[0.9290 0.6940 0.1250] |
“# EDB120” |
|
[0.4940 0.1840 0.5560] |
“# 7 e2f8e” |
|
[0.4660 0.6740 0.1880] |
“# 77 ac30” |
|
[0.3010 0.7450 0.9330] |
“# 4 dbeee” |
|
[0.6350 0.0780 0.1840] |
“# A2142F” |
|
例子:“蓝”
例子:[0 0 1]
HighlightColor
- - - - - -文字高亮颜色
[0.8510 0.3255 0.0980]
(默认)|RGB值|包含颜色名称的字符向量
单词高亮显示颜色,指定为RGB三元组,或包含颜色名称的字符向量。软件用这种颜色突出显示最大的单词。
RGB三组和十六进制颜色代码对于指定自定义颜色很有用。
RGB三元组是一个三元素行向量,其元素指定颜色的红、绿和蓝分量的强度。强度必须在这个范围内
[0, 1]
;例如,[0.4 0.6 0.7]
.十六进制颜色码是字符向量或以散列符号(
#
)后面跟着三个或六个十六进制数字,取值范围为0
来F
.这些值不区分大小写。因此,颜色代码“# FF8800”
,“# ff8800”
,“# F80”
,“# f80”
是等价的。
或者,您可以通过名称指定一些常用颜色。该表列出了已命名的颜色选项、等效的RGB三元组和十六进制颜色代码。
颜色名称 | 短名称 | RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|---|---|
“红色” |
“r” |
[10 0 0] |
“# FF0000” |
|
“绿色” |
‘g’ |
[0 10 0] |
“# 00 ff00” |
|
“蓝” |
“b” |
[0 0 1] |
“# 0000 ff” |
|
“青色” |
“c” |
[0 1 1] |
“# 00飞行符” |
|
“红色” |
“米” |
[10 0 1] |
“#就” |
|
“黄色” |
“y” |
[11 10 0] |
“# FFFF00” |
|
“黑” |
“k” |
[0 0 0] |
# 000000的 |
|
“白色” |
' w ' |
[1 1 1] |
“# FFFFFF” |
|
下面是MATLAB在许多类型的图中使用的默认颜色的RGB三组和十六进制颜色代码。
RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|
[0 0.4470 0.7410] |
“# 0072 bd” |
|
[0.8500 0.3250 0.0980] |
“# D95319” |
|
[0.9290 0.6940 0.1250] |
“# EDB120” |
|
[0.4940 0.1840 0.5560] |
“# 7 e2f8e” |
|
[0.4660 0.6740 0.1880] |
“# 77 ac30” |
|
[0.3010 0.7450 0.9330] |
“# 4 dbeee” |
|
[0.6350 0.0780 0.1840] |
“# A2142F” |
|
例子:“蓝”
例子:[0 0 1]
形状
- - - - - -字云的形状
“椭圆”
(默认)|“矩形”
字云图的形状,指定为“椭圆”
或“矩形”
.
例子:“矩形”
LayoutNum
- - - - - -文字排版
1(默认)|非负整数
字放置布局,指定为非负整数。如果你反复打电话wordcloud
使用相同的输入,那么字放置布局将是相同的每次。要获得不同的单词放置布局,请使用不同的值LayoutNum
.
输出参数
wc
- - - - - -WordCloudChart
对象
WordCloudChart
对象
WordCloudChart
对象。属性的属性WordCloudChart
在创建之后。有关更多信息,请参见WordCloudChart属性.
提示
文本分析工具箱扩展了wordcloud
(MATLAB)功能。它支持直接从字符金宝app串数组创建词云,支持从单词袋模型、n-gram袋模型和LDA主题创建词云。为wordcloud
(文本分析工具箱)参考页,请参见wordcloud
(文本分析工具箱).
扩展功能
高大的数组
使用行数超过内存容量的数组进行计算。
使用注意事项和限制:
的语法
Wc = wordcloud(str)
,在那里str
不支持字符串数组、字符向量或字符向量的单元格数组(这些输入需要文本分析工具箱)。金宝app当
单词
而且sizedata
输入以高数组的形式提供,然后它们被收集到内存中,因此必须适合内存。
Abrir比如
Tiene una versión modificada de este ejemplo。¿Desea abrir este ejemplo con sus modificaciones?
MATLAB突击队
Ha hecho clic en unenlace que对应一个este commando de MATLAB:
弹射突击队introduciéndolo en la ventana de commandos de MATLAB。Los navegadores web no permission comandos de MATLAB。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。