主要内容

WordCloud.

从文本,单词袋式模型,袋袋模型或LDA模型创建单词云图

描述

Text Analytics Toolbox™扩展了该工具箱WordCloud.(Matlab.®) 功能。它支持直接从字符金宝app串数组创建Word云,并从单词袋式模型,N-Gram模型和LDA主题创建字云。如果您没有安装文本分析工具箱,请查看WordCloud.

例子

WordCloud(str的)通过令授权和预处理文本创建一个单词云图表str然后,然后显示具有与字频率对应的大小的单词。此语法支持英语,日语,德金宝app语和韩文文本。

例子

WordCloud(文档的)从出现的单词中创建一个单词云图表文档

例子

WordCloud(的)从单词袋或n-r克模型创建一个单词云图表

例子

WordCloud(TBL.Wordvar.sizeVar的)从表中创建一个字云图TBL..变量Wordvar.sizeVar在表格中,分别指定单词和字大小。

WordCloud(大小写的)从元素创建一个词云图字的大小由大小写

WordCloud(C的)从分类数组的元素创建一个单词云图表C使用频率计数。

例子

WordCloud(ldaMdltopicIdx的)从具有索引的主题创建一个单词云图表topicIdxLDA模型ldaMdl

WordCloud(___名称,价值的)指定其他WordCloudChart.使用一个或多个名称-值对参数的属性。

WordCloud(父母___的)在指定的图、面板或选项卡中创建字云父母

wc= wordcloud (___的)返回WordCloudChart.对象。用wc在创建它后修改单词云的属性。有关属性列表,请参阅WordCloudChart属性

例子

全部收缩

从中提取文本sonnets.txt.使用extractFileText并显示第一个十四行诗的文本。

str = inthelfiletext(“sonnets.txt”);extractBefore (str,“II”的)
我们渴望从最美丽的生灵那里得到更多,这样美丽的玫瑰才能永不凋谢,但就像成熟的人会随着时间的消逝,他的柔弱的继承人可以继承他的记忆:但你,把自己的光明的眼睛束缚,用自我充实的燃料喂养你的光明的火焰,在富足的地方制造饥荒,把你自己当作敌人,对你那甜蜜的自我过于残酷:你现在是世界的新鲜装饰品,是迎接绚丽春天的唯一使者,在你自己的花蕾里埋葬了你的满足,温柔的粗鄙的人在吝啬中消磨了你的生命:可怜这世界吧,否则这贪吃鬼,就从坟墓和你那里把世界应得的东西吃掉吧。”

在一个词云中显示十四行诗中的词。

图WordCloud(str);

图包含WordCloud类型的对象。

加载示例数据。该文件sonnetspreprocessed.txt.txt.包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetspreprocessed.txt.txt.,用换行符将文本分割成文档,然后对文档进行标记。

filename =“sonnetspreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用单词云可视化文档。

图wordcloud(文件);

图包含WordCloud类型的对象。

加载示例数据。该文件sonnetspreprocessed.txt.txt.包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetspreprocessed.txt.txt.,用换行符将文本分割成文档,然后对文档进行标记。

filename =“sonnetspreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用袋式模型使用bagOfWords

袋= bagOfWords(文档)
BAG =具有属性的Bagofwords:Counts:[154x3092双]词汇:[“最公平”“生物”“欲望”......] Numwords:3092 NumFocuments:154

使用词云可视化词袋模型。

图wordcloud(袋);

图包含WordCloud类型的对象。

加载示例数据Sonnetstable..表TBL.包含变量中的单词列表,以及变量中的相应频率计数数数

加载Sonnetstable.头(台)
ANS =.8×2表字数  ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

使用绘制表数据WordCloud..指定单词和相应的字大小数数变量分别。

图WordCloud(TBL,“词”'数数');标题(“十四行诗词云”的)

图包含WordCloud类型的对象。WordCloud类型的图表具有Tarite Sonnets Word Cloud。

在此示例中重现结果,设置rng'默认'

RNG('默认'的)

加载示例数据。该文件sonnetspreprocessed.txt.txt.包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetspreprocessed.txt.txt.,用换行符将文本分割成文档,然后对文档进行标记。

filename =“sonnetspreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

使用袋式模型使用bagOfWords

袋= bagOfWords(文档)
BAG =具有属性的Bagofwords:Counts:[154x3092双]词汇:[“最公平”“生物”“欲望”......] Numwords:3092 NumFocuments:154

适合20个主题的LDA模型。要抑制详细输出,请设置'verbose'到0。

20岁的mdl = fitlda(包'verbose',0)
mdl = ldamodel具有属性:numtopics:20个字复制:1个题复杂:5次主题:5个柯克佩普科可用性:[0.0500 0.0500 0.0500 0.0500 0.0500 ...] DocumentTopicProbability:[154x20双]主题​​页:[3092x20双]词汇:[“最公平”“生物”..。]主题订单:'initial-fit-概率'fitinfo:[1x1 struct]

使用词云可视化前四个主题。

数字为了TopicIDX = 1:4子图(2,2,TopicIDX)WordCloud(MDL,TopicIDX);标题(“话题: ”+ TopicIDX)结尾

图包含WordCloud类型的对象。Type WordCloud的图表具有标题主题:1。WordCloud类型的图表具有标题主题:2。WordCloud类型的图表具有标题主题:3。WordCloud类型的图表具有标题主题:4。

输入参数

全部收缩

输入文本,指定为字符串数组,字符向量或字符向量阵列。

对于字符串输入,WordCloud.wordCloudCounts功能使用英语,日语,德语和韩语标记,停止删除字词和字标准化。

例子:[“简短文件的一个例子”;“第二个简短文件”]

数据类型:字符串|char|细胞

输入文档,指定为tokenizedDocument大批。

输入表,具有列指定单词和字大小的列。指定所提供的变量中的单词和相应的单词大小Wordvar.sizeVar输入参数分别。

数据类型:桌子

Word数据的表变量,指定为字符串标量,字符向量,数字索引或逻辑向量。

数据类型:|双倍的|int8|INT16|INT32.|INT64.|uint8|uint16|uint32|uint64|逻辑|char|字符串

表变量为尺寸数据,指定为字符串标量,字符向量,数字索引或逻辑向量。

数据类型:|双倍的|int8|INT16|INT32.|INT64.|uint8|uint16|uint32|uint64|逻辑|char|字符串

输入单词,指定为字符串向量或字符向量的单元格数组。

数据类型:字符串|细胞

单词尺寸数据,指定为数字矢量。

数据类型:|双倍的|int8|INT16|INT32.|INT64.|uint8|uint16|uint32|uint64

输入分类数据,指定为分类数组。函数绘制每个唯一元素C大小对应histcounts(c)

数据类型:分类

输入词袋或n-grams袋模型,指定为bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams对象,然后该函数将每个n-gram视为单个单词。

输入LDA模型,指定为ldamodel.对象。

LDA主题的索引,指定为非负整数。

父级指定为图形,面板或选项卡。

名称 - 值参数

指定可选的逗号分离对名称,价值论点。的名字是参数名称和价值为对应值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:“HighlightColor”、“蓝”指定要蓝色的突出显示颜色。

WordCloudChart.这里列出的属性仅是一个子集。有关完整列表,请参阅WordCloudChart属性

要显示的最大单词数,指定为非负整数。软件显示MaxDisplayWords最大的词。

字颜色,指定为RGB三元组、包含颜色名称的字符向量或N.-By-3矩阵在其中N.是长度WordData..如果颜色是矩阵,然后每行对应于相应单词的RGB三联网WordData.

RGB三合一和十六进制颜色代码用于指定自定义颜色。

  • RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色分量的强度。强度一定在范围内[0,1];例如,(0.4 0.6 0.7)

  • 十六进制颜色码是一个字符向量或以散列符号()接着是三个或六个十六进制数字,可以从0.F.这些值不区分大小写。因此,颜色编码“# FF8800”'#ff8800'“# F80”,'#f80'是等同的。

或者,您可以按名称指定一些常见颜色。此表列出了命名的颜色选项,等效RGB三元组和十六进制颜色代码。

颜色名称 简称 RGB三重态 十六进制颜色代码 外观
'红色的' 'r' (1 0 0) '#ff0000'

红色样本红色

'绿色' 'G' [0 1 0] '#00ff00'

颜色的样本

'蓝色' “b” [0 0 1] '#0000ff'

颜色的样本

“青色” “c” [0 1 1] '#00ffff'

样本的颜色青色

'品红' 'M' (1 0 1) '#ff00ff'

彩色洋红色的样本

“黄色” '是' [1 1 0] '#ffff00'

黄色的样品

“黑” 'k' [0 0 0] '#000000'

黑色的样品

'白色的' 'W' [1 1 1] '#ffffff'

白色的样品白色

这里是MATLAB在许多类型的绘图中使用的默认颜色的RGB三组和十六进制颜色代码。

RGB三重态 十六进制颜色代码 外观
[0 0.4470 0.7410] '#0072bd'

RGB三联体的样品[0 0.4470 0.7410],它看起来深蓝色

[0.8500 0.3250 0.0980] '#d95319'

RGB三元组[0.8500 0.3250 0.0980]的样本,显示为暗橙色

[0.9290 0.6940 0.1250] “# EDB120”

样本为RGB三元组[0.9290 0.6940 0.1250],呈现为暗黄色

[0.4940 0.1840 0.5560] '#7e2f8e'

RGB三重蛋白样品[0.4940 0.1840 0.5560],它看起来像暗紫色

[0.4660 0.6740 0.1880] '#77ac30'

RGB三重蛋白样品[0.4660 0.6740 0.1880],它显示为中绿色

[0.3010 0.7450 0.9330] '#4dbeee'

RGB三重蛋白样品[0.3010 0.7450 0.9330],它看起来像浅蓝色

(0.6350 0.0780 0.1840) '#a2142f'

RGB三重蛋白样品[0.6350 0.0780 0.1840],它显示为深红色

例子:'蓝色'

例子:[0 0 1]

Word突出显示颜色,指定为RGB三联网,或包含颜色名称的字符向量。该软件突出显示了具有此颜色的最大词。

RGB三合一和十六进制颜色代码用于指定自定义颜色。

  • RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色分量的强度。强度一定在范围内[0,1];例如,(0.4 0.6 0.7)

  • 十六进制颜色码是一个字符向量或以散列符号()接着是三个或六个十六进制数字,可以从0.F.这些值不区分大小写。因此,颜色编码“# FF8800”'#ff8800'“# F80”,'#f80'是等同的。

或者,您可以按名称指定一些常见颜色。此表列出了命名的颜色选项,等效RGB三元组和十六进制颜色代码。

颜色名称 简称 RGB三重态 十六进制颜色代码 外观
'红色的' 'r' (1 0 0) '#ff0000'

红色样本红色

'绿色' 'G' [0 1 0] '#00ff00'

颜色的样本

'蓝色' “b” [0 0 1] '#0000ff'

颜色的样本

“青色” “c” [0 1 1] '#00ffff'

样本的颜色青色

'品红' 'M' (1 0 1) '#ff00ff'

彩色洋红色的样本

“黄色” '是' [1 1 0] '#ffff00'

黄色的样品

“黑” 'k' [0 0 0] '#000000'

黑色的样品

'白色的' 'W' [1 1 1] '#ffffff'

白色的样品白色

这里是MATLAB在许多类型的绘图中使用的默认颜色的RGB三组和十六进制颜色代码。

RGB三重态 十六进制颜色代码 外观
[0 0.4470 0.7410] '#0072bd'

RGB三联体的样品[0 0.4470 0.7410],它看起来深蓝色

[0.8500 0.3250 0.0980] '#d95319'

RGB三元组[0.8500 0.3250 0.0980]的样本,显示为暗橙色

[0.9290 0.6940 0.1250] “# EDB120”

样本为RGB三元组[0.9290 0.6940 0.1250],呈现为暗黄色

[0.4940 0.1840 0.5560] '#7e2f8e'

RGB三重蛋白样品[0.4940 0.1840 0.5560],它看起来像暗紫色

[0.4660 0.6740 0.1880] '#77ac30'

RGB三重蛋白样品[0.4660 0.6740 0.1880],它显示为中绿色

[0.3010 0.7450 0.9330] '#4dbeee'

RGB三重蛋白样品[0.3010 0.7450 0.9330],它看起来像浅蓝色

(0.6350 0.0780 0.1840) '#a2142f'

RGB三重蛋白样品[0.6350 0.0780 0.1840],它显示为深红色

例子:'蓝色'

例子:[0 0 1]

词云图表的形状,指定为“椭圆”'长方形'

例子:'长方形'

输出参数

全部收缩

WordCloudChart.对象。您可以修改a的属性WordCloudChart.创建完成后。有关更多信息,请参见WordCloudChart属性

更多关于

全部收缩

语言考虑因素

对于字符串输入,WordCloud.wordCloudCounts功能使用英语,日语,德语和韩语标记,停止删除字词和字标准化。

对于其他语言,您可能需要手动预处理您的文本数据并指定唯一的单词和相应的大小WordCloud.

中指定字的大小WordCloud.,将数据作为表格或包含唯一单词和相应大小的阵列。

介绍在R2017B.