主要内容

wordcloud

从文本、词袋模型、词袋-n-grams模型或LDA模型创建词云图

描述

文本分析工具箱™扩展的功能wordcloud(MATLAB®)函数。它增加了对直接从金宝app字符串数组创建词云的支持,以及对从词袋模型、n-gram模型和LDA主题创建词云的支持。如果未安装文本分析工具箱,请参阅wordcloud

例子

wordcloud(str通过对文本进行标记和预处理,创建一个词云图str,然后以与词频计数对应的大小显示单词。此语法支持英语、日语、德语和韩语文本。金宝app

例子

wordcloud(文档根据出现的单词创建一个单词云图文档

例子

wordcloud(从单词包或n-gram包模型创建单词云图

例子

wordcloud(tblwordVarsizeVar从表格中创建一个单词云图tbl.的变量wordVarsizeVar表中分别指定单词和单词大小。

wordcloud(单词sizeData从的元素创建单词云图表单词指定的字大小sizeData

wordcloud(C从分类数组的元素创建单词云图表C使用频率计数。

例子

wordcloud(ldaMdltopicIdx用索引从主题创建一个词云图topicIdxLDA模型的应用ldaMdl

wordcloud(___名称,值指定附加的字云图属性使用一个或多个名称-值对参数。

wordcloud(___在指定的图形、面板或制表符中创建字云

wc= wordcloud (___返回字云图对象使用wc在创建词云之后修改它的属性。有关属性列表,请参见WordCloudChart属性

例子

全部折叠

将文本从十四行诗.txt使用extractFileText并显示第一首十四行诗的文本。

str=extractFileText(“sonnets.txt”);extractBefore (str,“二”
[诗歌]莎士比亚十四行诗一我们希望从最美丽的生灵身上生长,这样美丽的玫瑰就永远不会凋谢,但就像成熟的玫瑰随着时间的流逝而凋谢一样,他的娇嫩的继承人也可以记住他:可是你,只盯着自己明亮的眼睛,把自己的物质燃料填满你的火焰,把富足的地方变成饥荒,把你自己当作敌人,把你可爱的自己弄得太残酷:你现在是这世界的新鲜的装饰品,是这绚丽春天的唯一使者,把你的满足埋在你的花蕾里,温柔的粗人把你的吝啬浪费掉:可怜这世界吧,否则这个贪吃的人,要用坟墓和你来吃掉这世界的本分。”

将十四行诗中的单词显示在单词云中。

图wordcloud (str);

图中包含一个wordcloud类型的对象。

加载示例数据。该文件十四行诗预处理.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从十四行诗预处理.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用单词云可视化文档。

图wordcloud(文件);

图中包含一个wordcloud类型的对象。

加载示例数据。该文件十四行诗预处理.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从十四行诗预处理.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用创建一个单词包模型bagOfWords

bag=bagOfWords(文件)
单词:[" fairrest " "creatures" "desire"…NumWords: 3092 NumDocuments: 154

使用单词云可视化单词袋模型。

图wordcloud(袋);

图中包含一个wordcloud类型的对象。

加载示例数据十四行诗.表tbl包含变量中的单词列表单词,以及变量中相应的频率计数计数

负载十四行诗头(台)
ans=8×2表字数  ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

使用wordcloud. 指定要显示的单词和相应的单词大小单词计数变量。

图wordcloud(资源描述,“词”“数”);头衔(“十四行诗词云”

图中包含wordcloud类型的对象。wordcloud类型的图表的标题为十四行诗wordcloud。

要重现本例中的结果,请设置rng“默认”

rng(“默认”

加载示例数据。该文件十四行诗预处理.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从十四行诗预处理.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用创建一个单词包模型bagOfWords

bag=bagOfWords(文件)
单词:[" fairrest " "creatures" "desire"…NumWords: 3092 NumDocuments: 154

适合包含20个主题的LDA模型。要抑制详细输出,请设置“冗长”到0。

20岁的mdl = fitlda(包“冗长”,0)
mdl=ldaModel,属性:NumTopics:20单词浓度:1主题浓度:5个粒子主题概率:[0.0500 0.0500 0.0500 0.0500…]文档主题概率:[154x20 double]主题词概率:[3092x20 double]词汇:[“最公平的”“生物”…]主题顺序:“初始拟合概率”FitInfo:[1x1结构]

使用词云将前四个主题形象化。

数字topicIdx=1:4子批次(2,2,topicIdx)wordcloud(mdl,topicIdx);标题(“主题:”+topicIdx)结束

图中包含wordcloud类型的对象。wordcloud类型的图表有标题Topic: 1。wordcloud类型的图表有标题Topic: 2。wordcloud类型的图表有标题Topic: 3。wordcloud类型的图表有标题Topic: 4。

输入参数

全部折叠

输入文本,指定为字符串数组、字符向量或字符向量的单元格数组。

对于字符串输入,wordcloudwordCloudCounts函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。

例子:[“短文档的示例”;“第二个短文档”]

数据类型:字符串|烧焦|细胞

输入文档,指定为tokenizedDocument数组中。

输入表,列指定单词和单词大小。在给定的变量中指定单词和相应的单词大小wordVarsizeVar分别输入参数。

数据类型:表格

字数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。

数据类型:|双重的|int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|烧焦|字符串

用于大小数据的表变量,指定为字符串标量、字符向量、数字索引或逻辑向量。

数据类型:|双重的|int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|烧焦|字符串

输入字,指定为字符串向量或字符向量的单元格数组。

数据类型:字符串|细胞

字号数据,指定为数字向量。

数据类型:|双重的|int8|int16|int32|int64|uint8|uint16|uint32|uint64

输入分类数据,指定为分类数组。函数绘制的每个唯一元素C大小与histcounts (C)

数据类型:明确的

输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams对象,则该函数将每个n-gram视为单个单词。

输入LDA模型,指定为ldaModel对象。

LDA主题的索引,指定为非负整数。

指定为地物、面板或选项卡的父对象。

名称-值参数

指定可选的逗号分隔的对名称,值论据。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数名称1,值1,…,名称,值

例子:“HighlightColor”、“蓝”将高光颜色指定为蓝色。

字云图这里列出的属性只是一个子集。有关完整列表,请参见WordCloudChart属性

要显示的最大字数,指定为非负整数。软件显示MaxDisplayWords最大的词。

字颜色,指定为RGB三元组、包含颜色名称的字符向量或N-by-3矩阵,其中N为长度WordData.如果颜色是一个矩阵,那么每一行对应于一个RGB三元组,对应于WordData

RGB三联体和十六进制颜色代码在指定自定义颜色时很有用。

  • RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色组件的强度。强度必须在这个范围内[0, 1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是以哈希符号开头的字符向量或字符串标量()后跟三个或六个十六进制数字,其范围为0F.这些值不区分大小写。因此,颜色是代码“# FF8800”“# ff8800”“# F80”,“# f80”是等价的。

或者,您可以通过名称指定一些常见的颜色。该表列出了已命名的颜色选项、等价的RGB三联体和十六进制颜色代码。

颜色名称 简称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色样品

“绿色” “g” [0 1 0] “# 00 ff00”

绿色样品

“蓝色” “b” [0 0 1] “# 0000 ff”

样品的颜色是蓝色的

“青色” “c” [0 1 1] “#00FFFF”

样品的颜色为青色

“洋红” “我是 (1 0 1) “#FF00FF”

样品的颜色为洋红色

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色为黄色

“黑” “k” [0 0 0] '#000000'

样品的颜色为黑色

“白色” ' w ' (1 1 1) “# FFFFFF”

样品的颜色为白色

以下是MATLAB在许多类型的绘图中使用的默认颜色的RGB三联体和十六进制颜色代码。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) “#0072BD”

RGB三重态样本[0.4470 0.7410],显示为深蓝色

(0.8500 0.3250 0.0980) “# D95319”

RGB三元组样本[0.8500 0.3250 0.0980],呈暗橙色

(0.9290 0.6940 0.1250) “# EDB120”

RGB三元组样本[0.9290 0.6940 0.1250],呈暗黄色

[0.4940 0.1840 0.5560] “# 7 e2f8e”

样品RGB三片[0.4940 0.1840 0.5560],呈深紫色

(0.4660 0.6740 0.1880) "77AC30"

样品RGB三联体[0.4660 0.6740 0.1880],呈中绿色

[0.3010 0.7450 0.9330] “#4DBEEE”

RGB三联体样品[0.3010.7450 0.9330],显示为浅蓝色

(0.6350 0.0780 0.1840) “# A2142F”

RGB三联体样品[0.6350 0.0780 0.1840],显示为深红色

例子:“蓝色”

例子:[0 0 1]

单词高亮显示颜色,指定为RGB三元组,或包含颜色名称的字符向量。软件使用此颜色高亮显示最大的单词。

RGB三联体和十六进制颜色代码在指定自定义颜色时很有用。

  • RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色组件的强度。强度必须在这个范围内[0, 1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是以哈希符号开头的字符向量或字符串标量()后跟三个或六个十六进制数字,其范围为0F.这些值不区分大小写。因此,颜色是代码“# FF8800”“# ff8800”“# F80”,“# f80”是等价的。

或者,您可以通过名称指定一些常见的颜色。该表列出了已命名的颜色选项、等价的RGB三联体和十六进制颜色代码。

颜色名称 简称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色样品

“绿色” “g” [0 1 0] “# 00 ff00”

绿色样品

“蓝色” “b” [0 0 1] “# 0000 ff”

样品的颜色是蓝色的

“青色” “c” [0 1 1] “#00FFFF”

样品的颜色为青色

“洋红” “我是 (1 0 1) “#FF00FF”

样品的颜色为洋红色

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色为黄色

“黑” “k” [0 0 0] '#000000'

样品的颜色为黑色

“白色” ' w ' (1 1 1) “# FFFFFF”

样品的颜色为白色

以下是MATLAB在许多类型的绘图中使用的默认颜色的RGB三联体和十六进制颜色代码。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) “#0072BD”

RGB三重态样本[0.4470 0.7410],显示为深蓝色

(0.8500 0.3250 0.0980) “# D95319”

RGB三元组样本[0.8500 0.3250 0.0980],呈暗橙色

(0.9290 0.6940 0.1250) “# EDB120”

RGB三元组样本[0.9290 0.6940 0.1250],呈暗黄色

[0.4940 0.1840 0.5560] “# 7 e2f8e”

样品RGB三片[0.4940 0.1840 0.5560],呈深紫色

(0.4660 0.6740 0.1880) "77AC30"

样品RGB三联体[0.4660 0.6740 0.1880],呈中绿色

[0.3010 0.7450 0.9330] “#4DBEEE”

RGB三联体样品[0.3010.7450 0.9330],显示为浅蓝色

(0.6350 0.0780 0.1840) “# A2142F”

RGB三联体样品[0.6350 0.0780 0.1840],显示为深红色

例子:“蓝色”

例子:[0 0 1]

字云图的形状,指定为“椭圆”“矩形”

例子:“矩形”

输出参数

全部折叠

字云图对象。你可以修改字云图创建完成后。有关更多信息,请参见WordCloudChart属性

更多关于

全部折叠

语言考虑

对于字符串输入,wordcloudwordCloudCounts函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。

对于其他语言,您可能需要手动预处理文本数据,并在中指定唯一的单词和相应的大小wordcloud

在。中指定字的大小wordcloud,将数据作为包含唯一单词和相应大小的表或数组输入。

介绍了R2017b