从文本、单词袋模型、n字袋模型或LDA模型创建单词云图
文本分析工具箱™ 扩展了wordcloud
(MATLAB)®)它增加了直接从字符串数组创建单词云的支金宝app持,以及从单词包模型、n-gram模型和LDA主题创建单词云的支持。如果未安装文本分析工具箱,请参见wordcloud
.
wordcloud (
从类别数组的元素创建一个词云图C
)C
使用频率计数。
wordcloud (___,
指定附加的名称、值
)WordCloudChart
使用一个或多个名称-值对参数的属性。
wordcloud (
在指定的图形、面板或选项卡中创建单词cloud父母亲
,___)父母亲
.
返回厕所
=字云(___)WordCloudChart
对象。使用厕所
创建word cloud后修改其属性的步骤。有关属性列表,请参见WordCloudChart属性.
将文本从sonnets.txt
使用提取文件文本
并展示第一首十四行诗的文本。
str = extractFileText (“十四行诗.txt”);extractBefore (str,“二世”)
ans="威廉·莎士比亚十四行诗第一首我们所渴望的最美丽的生物的十四行诗,美丽的玫瑰也许永远不会凋谢,但随着时间的流逝,成熟的玫瑰可能会留下他的记忆。但是你,与你自己明亮的眼睛签约,用自足的燃料喂养你的火焰,在富足的地方制造饥荒,你的灵魂如果你的敌人对你甜蜜的自我过于残忍:你现在是世界上最新的装饰,是花哨春天的唯一使者,在你自己的花蕾里埋藏着你的内容,温柔的孩子浪费在吝啬上:可怜这个世界吧,否则这个贪吃的人,就吃世界应得的东西,由坟墓和你。”
在单词云中显示十四行诗中的单词。
图:wordcloud(str);
加载示例数据sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetsPreprocessed.txt
,以换行符将文本拆分为文档,然后标记文档。
文件名=“十四行诗预处理.txt”;str=extractFileText(文件名);textData=split(str,换行符);documents=tokenizedDocument(textData);
使用word cloud可视化文档。
图wordcloud(文档);
加载示例数据sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetsPreprocessed.txt
,以换行符将文本拆分为文档,然后标记文档。
文件名=“十四行诗预处理.txt”;str=extractFileText(文件名);textData=split(str,换行符);documents=tokenizedDocument(textData);
创建一个词袋模型使用巴格沃兹
.
袋= bagOfWords(文档)
有属性的单词:计数:[154x3092 double]词汇:[“最公平的”“生物”“欲望”…]NumWords:3092 NumDocuments:154
使用单词云可视化单词袋模型。
图wordcloud(包);
加载示例数据sonnetsTable
.桌子资源描述
包含变量中的单词列表词
,以及变量中相应的频率计数数
.
负载sonnetsTable总目(待定)
ans =8×2表字数{uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu{1{uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu
使用以下命令绘制表格数据:wordcloud
.属性指定单词和相应的单词大小词
和数
变量分别。
图:wordcloud(待定,“单词”,“伯爵”);标题(“十四行诗词云”)
要重现本例中的结果,请设置rng
到“默认”
.
rng (“默认”)
加载示例数据sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetsPreprocessed.txt
,以换行符将文本拆分为文档,然后标记文档。
文件名=“十四行诗预处理.txt”;str=extractFileText(文件名);textData=split(str,换行符);documents=tokenizedDocument(textData);
创建一个词袋模型使用巴格沃兹
.
袋= bagOfWords(文档)
有属性的单词:计数:[154x3092 double]词汇:[“最公平的”“生物”“欲望”…]NumWords:3092 NumDocuments:154
拟合具有20个主题的LDA模型。要抑制verbose输出,请设置“详细”
为0。
mdl=fitlda(袋,20,“详细”, 0)
mdl = ldaModel with properties: NumTopics: 20 WordConcentration: 1 TopicConcentration: 5 corpustopic概率:[0.0500 0.0500 0.0500 0.0500 0.0500…词汇:[“最公平的”“生物”…TopicOrder: 'initial-fit-probability'
使用单词云可视化前四个主题。
图形对于topicIdx = 1:4 subplot(2,2,topicIdx) wordcloud(mdl,topicIdx);标题(主题:“+ topicIdx)终止
文件
—输入文件标记化文档
数组输入文档,指定为标记化文档
大堆
wordVar
—表变量字数据word数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。
数据类型:仅有一个的
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
|必然的
|字符
|一串
西泽瓦
—用于大小数据的表变量大小数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。
数据类型:仅有一个的
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
|必然的
|字符
|一串
话
—输入字输入字,指定为字符串向量或字符向量的单元格数组。
数据类型:一串
|单间牢房
西泽达
—字号数据字大小数据,指定为数字向量。
数据类型:仅有一个的
|双
|int8
|int16
|int32
|int64
|uint8
|uint16
|uint32
|uint64
C
—输入分类数据输入分类数据,指定为分类数组。该函数绘制C
大小对应于历史计数(C)
.
数据类型:分类
ldaMdl
—输入LDA模型阿尔达莫代尔
对象输入LDA模型,指定为阿尔达莫代尔
对象。
topicIdx
—LDA主题索引LDA主题索引,指定为非负整数。
父母亲
—父母亲指定为图形、面板或制表符的父级。
指定可选的逗号分隔的字符对名称、值
参数。名称
是参数名和价值
是对应的值。名称
必须出现在引号内。您可以按任意顺序指定多个名称和值对参数,如下所示:Name1, Value1,…,的家
.
“HighlightColor”,“蓝色”
指定突出显示颜色为蓝色。
这个WordCloudChart
此处列出的属性只是一个子集。有关完整列表,请参阅WordCloudChart属性.
MaxDisplayWords
—要显示的最大字数要显示的最大字数,指定为非负整数。软件显示MaxDisplayWords
最大的单词。
颜色
—单词颜色[0.2510 0.2510 0.2510]
(默认)|RGB值|包含颜色名称的字符向量|矩阵单词颜色,指定为RGB三元组、包含颜色名称的字符向量或N
3矩阵N
长度是多少文字数据
如果颜色
是一个矩阵,则每行对应于中对应字的RGB三元组文字数据
.
RGB三元组和十六进制颜色代码用于指定自定义颜色。
RGB三元组是一个三元素行向量,其元素指定颜色的红色、绿色和蓝色分量的强度。强度必须在范围内[0,1]
例如[0.4 0.6 0.7]
.
十六进制颜色代码是以哈希符号开头的字符向量或字符串标量(#
),然后是3个或6个十六进制数字,其范围可以是0
到F
。值不区分大小写。因此,颜色代码“#FF8800”
,“#ff8800”
,“#F80”
和“#f80”
它们是等价的。
或者,您可以通过名称指定一些常用颜色。此表列出了命名颜色选项、等效RGB三元组和十六进制颜色代码。
颜色名称 | 短名称 | RGB三重态 | 十六进制色码 | 外貌 |
---|---|---|---|---|
“红色” |
“r” |
[1 0 0] |
“#FF0000” |
|
“绿色” |
‘g’ |
(0 1 0) |
“#00FF00” |
|
“蓝” |
“b” |
(0 0 1) |
#0000FF" |
|
“青色” |
“c” |
(0 1 1) |
“# 00飞行符” |
|
“红色” |
“米” |
[1 0 1] |
“#就” |
|
“黄色” |
“是的” |
[1 1 0] |
"FFFF00" |
|
“黑色” |
“k” |
(0 0 0) |
# 000000的 |
|
“白色” |
“w” |
[1 1 1] |
"FFFFFF" |
|
以下是MATLAB在多种绘图类型中使用的默认颜色的RGB三元组和十六进制颜色代码。
RGB三重态 | 十六进制色码 | 外貌 |
---|---|---|
[0 0.4470 0.7410] |
“# 0072 bd” |
|
[0.8500 0.3250 0.0980] |
"D95319" |
|
[0.9290 0.6940 0.1250] |
"EDB120" |
|
(0.4940 0.1840 0.5560) |
"7E2F8E" |
|
[0.4660 0.6740 0.1880] |
“# 77 ac30” |
|
(0.3010 0.7450 0.9330) |
“# 4 dbeee” |
|
[0.6350 0.0780 0.1840] |
"A2142F" |
|
例子:“蓝”
例子:(0 0 1)
高亮度彩色
—字高亮颜色[0.8510 0.3255 0.0980]
(默认)|RGB值|包含颜色名称的字符向量字高亮颜色,指定为RGB三元组或包含颜色名称的字符向量。软件会用这种颜色突出最大的单词。
RGB三元组和十六进制颜色代码用于指定自定义颜色。
RGB三元组是一个三元素行向量,其元素指定颜色的红色、绿色和蓝色分量的强度。强度必须在范围内[0,1]
例如[0.4 0.6 0.7]
.
十六进制颜色代码是以哈希符号开头的字符向量或字符串标量(#
),然后是3个或6个十六进制数字,其范围可以是0
到F
。值不区分大小写。因此,颜色代码“#FF8800”
,“#ff8800”
,“#F80”
和“#f80”
它们是等价的。
或者,您可以通过名称指定一些常用颜色。此表列出了命名颜色选项、等效RGB三元组和十六进制颜色代码。
颜色名称 | 短名称 | RGB三重态 | 十六进制色码 | 外貌 |
---|---|---|---|---|
“红色” |
“r” |
[1 0 0] |
“#FF0000” |
|
“绿色” |
‘g’ |
(0 1 0) |
“#00FF00” |
|
“蓝” |
“b” |
(0 0 1) |
#0000FF" |
|
“青色” |
“c” |
(0 1 1) |
“# 00飞行符” |
|
“红色” |
“米” |
[1 0 1] |
“#就” |
|
“黄色” |
“是的” |
[1 1 0] |
"FFFF00" |
|
“黑色” |
“k” |
(0 0 0) |
# 000000的 |
|
“白色” |
“w” |
[1 1 1] |
"FFFFFF" |
|
以下是MATLAB在多种绘图类型中使用的默认颜色的RGB三元组和十六进制颜色代码。
RGB三重态 | 十六进制色码 | 外貌 |
---|---|---|
[0 0.4470 0.7410] |
“# 0072 bd” |
|
[0.8500 0.3250 0.0980] |
"D95319" |
|
[0.9290 0.6940 0.1250] |
"EDB120" |
|
(0.4940 0.1840 0.5560) |
"7E2F8E" |
|
[0.4660 0.6740 0.1880] |
“# 77 ac30” |
|
(0.3010 0.7450 0.9330) |
“# 4 dbeee” |
|
[0.6350 0.0780 0.1840] |
"A2142F" |
|
例子:“蓝”
例子:(0 0 1)
形状
—词云形状“椭圆形”
(默认)|“矩形”
单词云图的形状,指定为“椭圆形”
或“矩形”
.
例子:“矩形”
厕所
—WordCloudChart
对象WordCloudChart
对象WordCloudChart
对象。您可以修改WordCloudChart
创建后。有关详细信息,请参阅WordCloudChart属性.
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。