文档帮助中心文档
从文本数据创建云词表
wordcloud(资源描述、wordVar sizeVar)
wordcloud(话说,sizeData)
wordcloud (C)
wordcloud (___、名称、值)
wordcloud(父,___)
wc = wordcloud (___)
例子
wordcloud (资源描述,wordVar,sizeVar)从表中创建一个词云图表资源描述。的变量wordVar和sizeVar表中分别指定文字和文字大小。
wordcloud (资源描述,wordVar,sizeVar)
资源描述
wordVar
sizeVar
wordcloud (单词,sizeData)创建一个云词表的元素单词词所指定的大小SizeData。
wordcloud (单词,sizeData)
单词
sizeData
SizeData
wordcloud (C)创建一个云词表绝对独特的元素的数组C大小对应于频率计数。如果你有文本分析工具箱™C可以是一个字符串数组,特征向量,或一个单元阵列的特征向量。
C
wordcloud (___,名称,值)指定附加的WordCloudChart使用一个或多个名称-值对参数属性。
wordcloud (___,名称,值)
名称,值
WordCloudChart
wordcloud (父,___)创建这个词云在图中,面板,或指定的选项卡父。
wordcloud (父,___)
父
wc= wordcloud (___)返回WordCloudChart对象。使用wc修改的属性词云在创建它。一个属性列表,看到WordCloudChart属性。
wc= wordcloud (___)
wc
请注意
文本分析工具箱的功能延伸wordcloud(MATLAB®)函数。它增加了支持直接金宝app从字符串数组创建词云,云从bag-of-words模型和创建词,bag-of-n-gram模型和LDA的话题。为wordcloud(文本分析工具箱)引用页面,看看wordcloud(文本分析工具箱)。
wordcloud
全部折叠
加载示例数据sonnetsTable。表资源描述包含一个单词列表中的变量词,和相应的频率计数的变量数。
sonnetsTable
词
数
负载sonnetsTable头(台)
ans =8×2表字数___________ _____{“‘是’}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1
表数据使用wordcloud。指定大小的单词和相应的词词和数变量分别。
图wordcloud(资源描述,“词”,“数”);标题(“十四行诗词云”)
如果你安装了文本分析工具箱™,那么您可以创建词云直接从字符串数组。有关更多信息,请参见wordcloud(文本分析工具箱)(文本分析工具箱)。如果你没有文本分析工具箱,然后您必须手动进行预处理文本数据。
这个例子展示了如何创建一个词云从纯文本阅读它成一个字符串数组,预处理,通过它wordcloud函数。
从莎士比亚的十四行诗读课文fileread功能和将其转换为字符串。
fileread
十四行诗=字符串(fileread (“sonnets.txt”));extractBefore(十四行诗,“二世”)
ans = "威廉·莎士比亚的十四行诗我从美丽的生物,我们渴望增加,从而美丽的玫瑰可能永远不会死,但随着成熟应该随着时间流逝,他的他的记忆交给娇嫩的后嗣:但你承包你的明亮的眼睛,饲料刻画你的光的火焰定情,燃料,饥荒丰富所在,你的自我你的敌人,你的甜蜜的自我太残忍:你现在艺术世界的新鲜的点缀,只有春天的华而不实的使者,在你自己的花蕾埋葬你的内容,和温柔的乡下人mak浪费在吝啬鬼:遗憾的世界,否则这贪吃的人,吃的世界,由你和坟墓。”
分裂十四行诗成一个字符串数组的元素包含单个单词。要做到这一点,去掉标点符号和加入的所有字符串元素为1×1字符串然后空格字符分割。然后,删除单词少于5个字符和单词转换为小写。
十四行诗
punctuationCharacters = [“。”“?”“啊!””、“”;“”:“];十四行诗=取代(punctuationCharacters十四行诗,”“);话说=分裂(加入(十四行诗));单词(strlength(字)< 5)= [];话说=低(单词);单词(1:10)
ans =10 x1字符串“十四行诗”“威廉”“莎士比亚”“公平”“生物”“希望”“增加”“从而”“美”“可能”
转换十四行诗分类数组,然后使用wordcloud。情节的独特元素的函数C大小对应于频率计数。
C =分类(单词);图wordcloud (C);标题(“十四行诗词云”)
创建一个词云从纯文本阅读它成一个字符串数组,预处理,通过它wordcloud函数。
找到独特的词十四行诗和计数频率。创建一个云词使用频率计数数据大小。
[numOccurrences, uniqueWords] = histcounts(分类(字));图wordcloud (uniqueWords numOccurrences);标题(“十四行诗词云”)
加载示例数据sonnetsTable。表资源描述包含一个单词的列表词变量和相应的频率计数数变量。
表数据使用wordcloud。指定大小的单词和相应的词词和数变量分别。设置文字颜色随机值,设置“颜色”随机矩阵或RGB三胞胎对每个单词一行。
“颜色”
numWords =大小(1台);颜色=兰德(numWords, 3);图wordcloud(资源描述,“词”,“数”,“颜色”、颜色);标题(“十四行诗词云”)
如果你安装了文本分析工具箱,那么您可以创建词云直接从字符串数组。如果你没有文本分析工具箱,然后您必须手动进行预处理文本数据。对于一个例子,演示如何创建一个词云没有文本分析工具箱,明白了文本数据准备词云。
提取的文本sonnets.txt使用extractFileText。
sonnets.txt
extractFileText
str = extractFileText (“sonnets.txt”);extractBefore (str,“二世”)
显示文字云十四行诗的一个词。
图wordcloud (str);
输入表,列指定单词和单词的大小。指定的单词和相应的字大小的变量wordVar和sizeVar分别输入参数。
数据类型:表
表
表变量数据,指定为一个字符串标量,特征向量,数值指数,或一个逻辑向量。
数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串
单
双
int8
int16
int32
int64
uint8
uint16
uint32
uint64
逻辑
字符
字符串
表变量尺寸数据,指定为字符串标量,特征向量,数值指数,或一个逻辑向量。
输入分类数据,指定为一个分类数组。每个独特的元素的功能块C与大小对应于histcounts (C)。
histcounts (C)
数据类型:分类
分类
输入单词,指定为一个字符串向量或单元阵列的特征向量。
数据类型:字符串|细胞
细胞
字大小数据,指定为一个数值向量。
数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64
图
面板
选项卡
TiledChartLayout
GridLayout
指定为一个父容器图,面板,选项卡,TiledChartLayout,或GridLayout对象。
指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家。
的名字
价值
Name1, Value1,…,的家
“HighlightColor”、“红”
的WordCloudChart这里列出的属性是唯一的一个子集。一个完整的列表,请参阅WordCloudChart属性。
MaxDisplayWords
要显示最大数量的单词,指定为一个非负整数。软件显示MaxDisplayWords最大的词。
颜色
(0.2510 0.2510 0.2510)
字的颜色,指定为一个RGB值,特征向量包含一个颜色的名字,或一个N3矩阵N的长度是WordData。如果颜色是一个矩阵,那么每一行对应一个RGB值对应的词吗WordData。
N
WordData
RGB三胞胎和十六进制颜色代码可用于指定自定义颜色。
一个RGB值三元素行向量的元素指定强度的红色,绿色和蓝色的组件的颜色。强度必须在范围内[0,1];例如,(0.4 0.6 0.7)。
[0,1]
(0.4 0.6 0.7)
十六进制颜色代码是一个特征向量或一个字符串标量,始于一个散列符号(#)后面跟着三个月或六个十六进制数字,它的范围可以从0来F。的值是不区分大小写的。因此,颜色代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。
#
0
F
“# FF8800”
“# ff8800”
“# F80”
“# f80”
或者,您可以指定一些常见颜色的名字。此表列出了命名颜色选项,相当于RGB三胞胎,十六进制颜色代码。
“红色”
“r”
(1 0 0)
“# FF0000”
“绿色”
‘g’
(0 1 0)
“# 00 ff00”
“蓝”
“b”
(0 0 1)
“# 0000 ff”
“青色”
“c”
(0 1 1)
“# 00飞行符”
“米”
(1 0 1)
“#就”
“黄色”
“y”
(1 1 0)
“# FFFF00”
“黑”
“k”
(0 0 0)
# 000000的
“白色”
' w '
(1 1 1)
“# FFFFFF”
这是默认颜色的RGB三胞胎和十六进制颜色编码MATLAB使用在许多类型的情节。
[0 0.4470 - 0.7410)
“# 0072 bd”
(0.8500 0.3250 0.0980)
“# D95319”
(0.9290 0.6940 0.1250)
“# EDB120”
(0.4940 0.1840 0.5560)
“# 7 e2f8e”
(0.4660 0.6740 0.1880)
“# 77 ac30”
(0.3010 0.7450 0.9330)
“# 4 dbeee”
(0.6350 0.0780 0.1840)
“# A2142F”
例子:“蓝”
例子:(0 0 1)
HighlightColor
(0.8510 0.3255 0.0980)
词突出颜色,指定为一个RGB值,或者一个特征向量包含一个颜色的名字。该软件最大凸显了与这种颜色词。
形状
“椭圆”
“矩形”
词云的形状图,指定为“椭圆”或“矩形”。
例子:“矩形”
LayoutNum
词位置布局,指定为一个非负整数。如果你反复调用wordcloud相同的输入,那么这个词位置布局每次都将是相同的。得到不同的词位置布局,使用不同的值LayoutNum。
WordCloudChart对象。您可以修改的属性WordCloudChart之后它创建。有关更多信息,请参见WordCloudChart属性。
文本分析工具箱的功能延伸wordcloud(MATLAB)功能。它增加了支持直接金宝app从字符串数组创建词云,云从bag-of-words模型和创建词,bag-of-n-gram模型和LDA的话题。为wordcloud(文本分析工具箱)引用页面,看看wordcloud(文本分析工具箱)。
使用笔记和限制:
的语法wc = wordcloud (str),在那里str是一个字符串数组,特征向量,或单元阵列特征向量(这些输入需要文本分析工具箱)不支持。金宝app
wc = wordcloud (str)
str
当单词和sizedata提供输入数组一样高,然后他们聚集到内存中,因此,必须适合到内存中。
sizedata
字符串|分裂|加入|取代|较低的|splitlines|wordcloud(文本分析工具箱)
分裂
加入
取代
较低的
splitlines
你有一个修改版的这个例子。你想打开这个例子与编辑?
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。金宝app
选择一个网站翻译内容,看到当地事件和提供。根据你的位置,我们建议您选择:。
你也可以从下面的列表中选择一个网站:
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。
联系你当地的办公室