从文本、词袋模型、词袋-n-grams模型或LDA模型创建词云图
文本分析工具箱™扩展的功能wordcloud
(MATLAB®)函数。它增加了对直接从金宝app字符串数组创建词云的支持,以及对从词袋模型、n-gram模型和LDA主题创建词云的支持。如果未安装文本分析工具箱,请参阅wordcloud
.
wordcloud(
从分类数组的元素创建单词云图表C
)C
使用频率计数。
wordcloud(___,
指定附加的名称,值
)字云图
属性使用一个或多个名称-值对参数。
wordcloud(
在指定的图形、面板或制表符中创建字云父
,___)父
.
返回wc
= wordcloud (___)字云图
对象使用wc
在创建词云之后修改它的属性。有关属性列表,请参见WordCloudChart属性.
将文本从十四行诗.txt
使用extractFileText
并显示第一首十四行诗的文本。
str=extractFileText(“sonnets.txt”);extractBefore (str,“二”)
[诗歌]莎士比亚十四行诗一我们希望从最美丽的生灵身上生长,这样美丽的玫瑰就永远不会凋谢,但就像成熟的玫瑰随着时间的流逝而凋谢一样,他的娇嫩的继承人也可以记住他:可是你,只盯着自己明亮的眼睛,把自己的物质燃料填满你的火焰,把富足的地方变成饥荒,把你自己当作敌人,把你可爱的自己弄得太残酷:你现在是这世界的新鲜的装饰品,是这绚丽春天的唯一使者,把你的满足埋在你的花蕾里,温柔的粗人把你的吝啬浪费掉:可怜这世界吧,否则这个贪吃的人,要用坟墓和你来吃掉这世界的本分。”
将十四行诗中的单词显示在单词云中。
图wordcloud (str);
加载示例数据。该文件十四行诗预处理.txt
包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从十四行诗预处理.txt
,将文本以换行符分割为文档,然后标记文档。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
使用单词云可视化文档。
图wordcloud(文件);
加载示例数据。该文件十四行诗预处理.txt
包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从十四行诗预处理.txt
,将文本以换行符分割为文档,然后标记文档。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
使用创建一个单词包模型bagOfWords
.
bag=bagOfWords(文件)
单词:[" fairrest " "creatures" "desire"…NumWords: 3092 NumDocuments: 154
使用单词云可视化单词袋模型。
图wordcloud(袋);
加载示例数据十四行诗
.表tbl
包含变量中的单词列表单词
,以及变量中相应的频率计数计数
.
负载十四行诗头(台)
ans=8×2表字数 ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1
使用wordcloud
. 指定要显示的单词和相应的单词大小单词
和计数
变量。
图wordcloud(资源描述,“词”,“数”);头衔(“十四行诗词云”)
要重现本例中的结果,请设置rng
来“默认”
.
rng(“默认”)
加载示例数据。该文件十四行诗预处理.txt
包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从十四行诗预处理.txt
,将文本以换行符分割为文档,然后标记文档。
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
使用创建一个单词包模型bagOfWords
.
bag=bagOfWords(文件)
单词:[" fairrest " "creatures" "desire"…NumWords: 3092 NumDocuments: 154
适合包含20个主题的LDA模型。要抑制详细输出,请设置“冗长”
到0。
20岁的mdl = fitlda(包“冗长”,0)
mdl=ldaModel,属性:NumTopics:20单词浓度:1主题浓度:5个粒子主题概率:[0.0500 0.0500 0.0500 0.0500…]文档主题概率:[154x20 double]主题词概率:[3092x20 double]词汇:[“最公平的”“生物”…]主题顺序:“初始拟合概率”FitInfo:[1x1结构]
使用词云将前四个主题形象化。
数字为topicIdx=1:4子批次(2,2,topicIdx)wordcloud(mdl,topicIdx);标题(“主题:”+topicIdx)结束
str
- - - - - -输入文本输入文本,指定为字符串数组、字符向量或字符向量的单元格数组。
对于字符串输入,wordcloud
和wordCloudCounts
函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。
例子:[“短文档的示例”;“第二个短文档”]
数据类型:字符串
|烧焦
|细胞
文档
- - - - - -输入文档tokenizedDocument
大堆输入文档,指定为tokenizedDocument
数组中。
wordVar
- - - - - -word数据的表变量字数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。
数据类型:单
|双重的
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
|逻辑
|烧焦
|字符串
sizeVar
- - - - - -表变量大小数据用于大小数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。
数据类型:单
|双重的
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
|逻辑
|烧焦
|字符串
单词
- - - - - -输入单词输入字,指定为字符串向量或字符向量的单元格数组。
数据类型:字符串
|细胞
sizeData
- - - - - -字大小数据字号数据,指定为数字向量。
数据类型:单
|双重的
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
C
- - - - - -输入分类数据输入分类数据,指定为分类数组。函数绘制的每个唯一元素C
大小与histcounts (C)
.
数据类型:明确的
袋
- - - - - -输入模型bagOfWords
对象|bagOfNgrams
对象输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords
对象或一个bagOfNgrams
对象。如果袋
是一个bagOfNgrams
对象,则该函数将每个n-gram视为单个单词。
ldaMdl
- - - - - -输入LDA模型ldaModel
对象输入LDA模型,指定为ldaModel
对象。
topicIdx
- - - - - -LDA主题索引LDA主题的索引,指定为非负整数。
父
- - - - - -父指定为地物、面板或选项卡的父对象。
指定可选的逗号分隔的对名称,值
论据。的名字
参数名和价值
为对应值。的名字
必须出现在引号内。可以以任意顺序指定多个名称和值对参数名称1,值1,…,名称,值
.
“HighlightColor”、“蓝”
将高光颜色指定为蓝色。
的字云图
这里列出的属性只是一个子集。有关完整列表,请参见WordCloudChart属性.
MaxDisplayWords
- - - - - -显示的最大字数要显示的最大字数,指定为非负整数。软件显示MaxDisplayWords
最大的词。
颜色
- - - - - -字的颜色(0.2510 0.2510 0.2510)
(默认)|RGB三重态|包含颜色名称的字符向量|矩阵字颜色,指定为RGB三元组、包含颜色名称的字符向量或N
-by-3矩阵,其中N
为长度WordData
.如果颜色
是一个矩阵,那么每一行对应于一个RGB三元组,对应于WordData
.
RGB三联体和十六进制颜色代码在指定自定义颜色时很有用。
RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色组件的强度。强度必须在这个范围内[0, 1]
;例如,(0.4 0.6 0.7)
.
十六进制颜色代码是以哈希符号开头的字符向量或字符串标量(#
)后跟三个或六个十六进制数字,其范围为0
来F
.这些值不区分大小写。因此,颜色是代码“# FF8800”
,“# ff8800”
,“# F80”
,“# f80”
是等价的。
或者,您可以通过名称指定一些常见的颜色。该表列出了已命名的颜色选项、等价的RGB三联体和十六进制颜色代码。
颜色名称 | 简称 | RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|---|---|
“红色” |
“r” |
(1 0 0) |
“# FF0000” |
|
“绿色” |
“g” |
[0 1 0] |
“# 00 ff00” |
|
“蓝色” |
“b” |
[0 0 1] |
“# 0000 ff” |
|
“青色” |
“c” |
[0 1 1] |
“#00FFFF” |
|
“洋红” |
“我是 |
(1 0 1) |
“#FF00FF” |
|
“黄色” |
“y” |
(1 1 0) |
“# FFFF00” |
|
“黑” |
“k” |
[0 0 0] |
'#000000' |
|
“白色” |
' w ' |
(1 1 1) |
“# FFFFFF” |
|
以下是MATLAB在许多类型的绘图中使用的默认颜色的RGB三联体和十六进制颜色代码。
RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|
[0 0.4470 - 0.7410) |
“#0072BD” |
|
(0.8500 0.3250 0.0980) |
“# D95319” |
|
(0.9290 0.6940 0.1250) |
“# EDB120” |
|
[0.4940 0.1840 0.5560] |
“# 7 e2f8e” |
|
(0.4660 0.6740 0.1880) |
"77AC30" |
|
[0.3010 0.7450 0.9330] |
“#4DBEEE” |
|
(0.6350 0.0780 0.1840) |
“# A2142F” |
|
例子:“蓝色”
例子:[0 0 1]
HighlightColor
- - - - - -词高亮颜色(0.8510 0.3255 0.0980)
(默认)|RGB三重态|包含颜色名称的字符向量单词高亮显示颜色,指定为RGB三元组,或包含颜色名称的字符向量。软件使用此颜色高亮显示最大的单词。
RGB三联体和十六进制颜色代码在指定自定义颜色时很有用。
RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色组件的强度。强度必须在这个范围内[0, 1]
;例如,(0.4 0.6 0.7)
.
十六进制颜色代码是以哈希符号开头的字符向量或字符串标量(#
)后跟三个或六个十六进制数字,其范围为0
来F
.这些值不区分大小写。因此,颜色是代码“# FF8800”
,“# ff8800”
,“# F80”
,“# f80”
是等价的。
或者,您可以通过名称指定一些常见的颜色。该表列出了已命名的颜色选项、等价的RGB三联体和十六进制颜色代码。
颜色名称 | 简称 | RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|---|---|
“红色” |
“r” |
(1 0 0) |
“# FF0000” |
|
“绿色” |
“g” |
[0 1 0] |
“# 00 ff00” |
|
“蓝色” |
“b” |
[0 0 1] |
“# 0000 ff” |
|
“青色” |
“c” |
[0 1 1] |
“#00FFFF” |
|
“洋红” |
“我是 |
(1 0 1) |
“#FF00FF” |
|
“黄色” |
“y” |
(1 1 0) |
“# FFFF00” |
|
“黑” |
“k” |
[0 0 0] |
'#000000' |
|
“白色” |
' w ' |
(1 1 1) |
“# FFFFFF” |
|
以下是MATLAB在许多类型的绘图中使用的默认颜色的RGB三联体和十六进制颜色代码。
RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|
[0 0.4470 - 0.7410) |
“#0072BD” |
|
(0.8500 0.3250 0.0980) |
“# D95319” |
|
(0.9290 0.6940 0.1250) |
“# EDB120” |
|
[0.4940 0.1840 0.5560] |
“# 7 e2f8e” |
|
(0.4660 0.6740 0.1880) |
"77AC30" |
|
[0.3010 0.7450 0.9330] |
“#4DBEEE” |
|
(0.6350 0.0780 0.1840) |
“# A2142F” |
|
例子:“蓝色”
例子:[0 0 1]
形状
- - - - - -字云形状“椭圆”
(默认)|“矩形”
字云图的形状,指定为“椭圆”
或“矩形”
.
例子:“矩形”
wc
- - - - - -字云图
对象字云图
对象字云图
对象。你可以修改字云图
创建完成后。有关更多信息,请参见WordCloudChart属性.
对于字符串输入,wordcloud
和wordCloudCounts
函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。
对于其他语言,您可能需要手动预处理文本数据,并在中指定唯一的单词和相应的大小wordcloud
.
在。中指定字的大小wordcloud
,将数据作为包含唯一单词和相应大小的表或数组输入。
次のMATLABコマンドに対応するリンクがクリックされました。
コマンドを MATLABコマンド ウィンドウに入力して実行してください。网状物ブラウザーは MATLABコマンドをサポートしていません。
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。