主要内容

wordcloud

从文本、词袋模型、词袋-n-grams模型或LDA模型创建词云图

描述

文本分析工具箱™扩展的功能wordcloud(MATLAB®)函数。它增加了对直接从金宝app字符串数组创建词云的支持,以及对从词袋模型、n-gram模型和LDA主题创建词云的支持。如果您没有安装文本分析工具箱,请查看wordcloud

例子

WordCloud(str通过对文本进行标记和预处理,创建一个词云图str然后,然后显示具有与字频率对应的大小的单词。此语法支持英语,日语,德金宝app语和韩文文本。

例子

WordCloud(文档根据出现的单词创建一个单词云图文档

例子

WordCloud(从单词包或n-gram包模型创建单词云图

例子

WordCloud(TBL.wordVarsizeVar从表格中创建一个单词云图TBL..的变量wordVarsizeVar表中分别指定单词和单词大小。

WordCloud(单词sizeData从元素创建一个词云图单词指定的字大小sizeData

WordCloud(C从分类数组的元素创建一个单词云图表C使用频率计数。

例子

WordCloud(ldamdl.topicIdx用索引从主题创建一个词云图topicIdxLDA模型ldamdl.

WordCloud(___名称,值指定附加的WordCloudChart.属性使用一个或多个名称-值对参数。

WordCloud(___在指定的图形、面板或制表符中创建字云

wc= wordcloud (___返回WordCloudChart.对象。用wc在创建词云之后修改它的属性。有关属性列表,请参见WordCloudChart属性

例子

全部折叠

将文本从sonnets.txt.使用extractFileText并显示第一个十四行诗的文本。

str = inthelfiletext(“sonnets.txt”);提取物(str,“II”
[诗歌]莎士比亚十四行诗一我们希望从最美丽的生灵身上生长,这样美丽的玫瑰就永远不会凋谢,但就像成熟的玫瑰随着时间的流逝而凋谢一样,他的娇嫩的继承人也可以记住他:可是你,只盯着自己明亮的眼睛,把自己的物质燃料填满你的火焰,把富足的地方变成饥荒,把你自己当作敌人,把你可爱的自己弄得太残酷:你现在是这世界的新鲜的装饰品,是这绚丽春天的唯一使者,把你的满足埋在你的花蕾里,温柔的粗人把你的吝啬浪费掉:可怜这世界吧,否则这个贪吃的人,要用坟墓和你来吃掉这世界的本分。”

从单词云中显示Sonnets的单词。

图wordcloud (str);

图中包含一个wordcloud类型的对象。

加载示例数据。该文件sonnetspreprocessed.txt.txt.包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetspreprocessed.txt.txt.,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用单词云可视化文档。

图wordcloud(文件);

图中包含一个wordcloud类型的对象。

加载示例数据。该文件sonnetspreprocessed.txt.txt.包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetspreprocessed.txt.txt.,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用袋式模型使用bagOfWords

袋= bagofwords(文件)
单词:[" fairrest " "creatures" "desire"…NumWords: 3092 NumDocuments: 154

使用单词云可视化单词袋模型。

图wordcloud(袋);

图中包含一个wordcloud类型的对象。

加载示例数据Sonnetstable..表TBL.包含变量中的单词列表单词,以及变量中的相应频率计数数数

负载Sonnetstable.头(台)
ANS =.8×2表字数  ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

使用wordcloud.指定单词和相应的字大小单词数数变量分别。

图wordcloud(资源描述,“词”“数”);标题(“十四行诗词云”

图中包含一个wordcloud类型的对象。WordCloud类型的图表具有Tarite Sonnets Word Cloud。

要重现本例中的结果,请设置rng'默认'

RNG('默认'

加载示例数据。该文件sonnetspreprocessed.txt.txt.包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetspreprocessed.txt.txt.,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用袋式模型使用bagOfWords

袋= bagofwords(文件)
单词:[" fairrest " "creatures" "desire"…NumWords: 3092 NumDocuments: 154

适合20个主题的LDA模型。要抑制详细输出,请设置'verbose'到0。

20岁的mdl = fitlda(包'verbose',0)
mdl = ldamodel具有属性:numtopics:20个字复制:1个题复杂:5次主题:5个柯克佩普科可用性:[0.0500 0.0500 0.0500 0.0500 0.0500 ...] DocumentTopicProbability:[154x20双]主题​​页:[3092x20双]词汇:[“最公平”“生物”..。]主题订单:'initial-fit-概率'fitinfo:[1x1 struct]

使用词云将前四个主题形象化。

数字TopicIDX = 1:4子图(2,2,TopicIDX)WordCloud(MDL,TopicIDX);标题(“话题: ”+ TopicIDX)结束

图中包含wordcloud类型的对象。wordcloud类型的图表有标题Topic: 1。wordcloud类型的图表有标题Topic: 2。wordcloud类型的图表有标题Topic: 3。wordcloud类型的图表有标题Topic: 4。

输入参数

全部折叠

输入文本,指定为字符串数组,字符向量或字符向量阵列。

对于字符串输入,wordcloudwordCloudCounts函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。

例子:[“简短文件的一个例子”;“第二个简短文件”]

数据类型:字符串|char|细胞

输入文档,指定为tokenizedDocument数组中。

输入表,具有列指定单词和字大小的列。指定所提供的变量中的单词和相应的单词大小wordVarsizeVar分别输入参数。

数据类型:表格

字数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。

数据类型:|双倍的|int8|INT16|INT32.|INT64.|uint8|uint16|uint32|uint64|逻辑|char|字符串

用于大小数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。

数据类型:|双倍的|int8|INT16|INT32.|INT64.|uint8|uint16|uint32|uint64|逻辑|char|字符串

输入字,指定为字符串向量或字符向量的单元格数组。

数据类型:字符串|细胞

单词尺寸数据,指定为数字矢量。

数据类型:|双倍的|int8|INT16|INT32.|INT64.|uint8|uint16|uint32|uint64

输入分类数据,指定为分类数组。函数绘制的每个唯一元素C大小对应histcounts (C)

数据类型:分类

输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams对象,则该函数将每个n-gram视为单个单词。

输入LDA模型,指定为ldaModel对象。

LDA主题的索引,指定为非负整数。

父级指定为图形,面板或选项卡。

名称-值参数

指定可选的逗号分隔的对名称,值论点。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:“HighlightColor”、“蓝”指定要蓝色的突出显示颜色。

WordCloudChart.这里列出的属性只是一个子集。有关完整列表,请参见WordCloudChart属性

要显示的最大字数,指定为非负整数。软件显示MaxDisplayWords最大的词。

字颜色,指定为RGB三元组、包含颜色名称的字符向量或N-By-3矩阵在其中N为长度WordData.如果颜色是一个矩阵,那么每一行对应于一个RGB三元组,对应于WordData

RGB三联体和十六进制颜色代码在指定自定义颜色时很有用。

  • RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色组件的强度。强度必须在这个范围内[0, 1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是字符向量或以哈希符号开头的字符串标量()接着是三个或六个十六进制数字,可以从0F.这些值不区分大小写。因此,颜色是代码“# FF8800”“# ff8800”“# F80”,“# f80”是等价的。

或者,您可以通过名称指定一些常见的颜色。该表列出了已命名的颜色选项、等价的RGB三联体和十六进制颜色代码。

颜色名称 简称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色样本红色

“绿色” 'G' [0 1 0] “# 00 ff00”

颜色的样本

'蓝色' “b” [0 0 1] “# 0000 ff”

样品的颜色是蓝色的

“青色” “c” [0 1 1] '#00ffff'

样品的颜色为青色

'品红' 'M' (1 0 1) '#ff00ff'

样品的颜色为洋红色

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色为黄色

“黑” 'k' [0 0 0] '#000000'

样品的颜色为黑色

“白色” ' w ' (1 1 1) “# FFFFFF”

样品的颜色为白色

以下是MATLAB在许多类型的绘图中使用的默认颜色的RGB三联体和十六进制颜色代码。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) '#0072bd'

RGB三联体的样品[0 0.4470 0.7410],它看起来深蓝色

(0.8500 0.3250 0.0980) “# D95319”

RGB三元组样本[0.8500 0.3250 0.0980],呈暗橙色

(0.9290 0.6940 0.1250) “# EDB120”

RGB三元组样本[0.9290 0.6940 0.1250],呈暗黄色

[0.4940 0.1840 0.5560] “# 7 e2f8e”

样品RGB三片[0.4940 0.1840 0.5560],呈深紫色

(0.4660 0.6740 0.1880) '#77ac30'

样品RGB三联体[0.4660 0.6740 0.1880],呈中绿色

[0.3010 0.7450 0.9330] '#4dbeee'

RGB三重蛋白样品[0.3010 0.7450 0.9330],它看起来像浅蓝色

(0.6350 0.0780 0.1840) “# A2142F”

RGB三重蛋白样品[0.6350 0.0780 0.1840],它显示为深红色

例子:'蓝色'

例子:[0 0 1]

Word突出显示颜色,指定为RGB三联网,或包含颜色名称的字符向量。该软件突出显示了具有此颜色的最大词。

RGB三联体和十六进制颜色代码在指定自定义颜色时很有用。

  • RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色组件的强度。强度必须在这个范围内[0, 1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是字符向量或以哈希符号开头的字符串标量()接着是三个或六个十六进制数字,可以从0F.这些值不区分大小写。因此,颜色是代码“# FF8800”“# ff8800”“# F80”,“# f80”是等价的。

或者,您可以通过名称指定一些常见的颜色。该表列出了已命名的颜色选项、等价的RGB三联体和十六进制颜色代码。

颜色名称 简称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色样本红色

“绿色” 'G' [0 1 0] “# 00 ff00”

颜色的样本

'蓝色' “b” [0 0 1] “# 0000 ff”

样品的颜色是蓝色的

“青色” “c” [0 1 1] '#00ffff'

样品的颜色为青色

'品红' 'M' (1 0 1) '#ff00ff'

样品的颜色为洋红色

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色为黄色

“黑” 'k' [0 0 0] '#000000'

样品的颜色为黑色

“白色” ' w ' (1 1 1) “# FFFFFF”

样品的颜色为白色

以下是MATLAB在许多类型的绘图中使用的默认颜色的RGB三联体和十六进制颜色代码。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) '#0072bd'

RGB三联体的样品[0 0.4470 0.7410],它看起来深蓝色

(0.8500 0.3250 0.0980) “# D95319”

RGB三元组样本[0.8500 0.3250 0.0980],呈暗橙色

(0.9290 0.6940 0.1250) “# EDB120”

RGB三元组样本[0.9290 0.6940 0.1250],呈暗黄色

[0.4940 0.1840 0.5560] “# 7 e2f8e”

样品RGB三片[0.4940 0.1840 0.5560],呈深紫色

(0.4660 0.6740 0.1880) '#77ac30'

样品RGB三联体[0.4660 0.6740 0.1880],呈中绿色

[0.3010 0.7450 0.9330] '#4dbeee'

RGB三重蛋白样品[0.3010 0.7450 0.9330],它看起来像浅蓝色

(0.6350 0.0780 0.1840) “# A2142F”

RGB三重蛋白样品[0.6350 0.0780 0.1840],它显示为深红色

例子:'蓝色'

例子:[0 0 1]

字云图的形状,指定为“椭圆”“矩形”

例子:“矩形”

输出参数

全部折叠

WordCloudChart.对象。你可以修改WordCloudChart.创建完成后。有关更多信息,请参见WordCloudChart属性

更多关于

全部折叠

语言考虑因素

对于字符串输入,wordcloudwordCloudCounts函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。

对于其他语言,您可能需要手动预处理您的文本数据并指定唯一的单词和相应的大小wordcloud

在。中指定字的大小wordcloud,将数据作为表格或包含唯一单词和相应大小的阵列。

介绍了R2017b