从文本,单词袋式模型,袋袋模型或LDA模型创建单词云图
Text Analytics Toolbox™扩展了该工具箱WordCloud.
(Matlab.®) 功能。它支持直接从字符金宝app串数组创建Word云,并从单词袋式模型,N-Gram模型和LDA主题创建字云。如果您没有安装文本分析工具箱,请查看WordCloud.
.
WordCloud(
从分类数组的元素创建一个单词云图表C
的)C
使用频率计数。
WordCloud(___那
指定其他名称,价值
的)WordCloudChart.
使用一个或多个名称-值对参数的属性。
WordCloud(
在指定的图、面板或选项卡中创建字云父母
那___的)父母
.
返回wc
= wordcloud (___的)WordCloudChart.
对象。用wc
在创建它后修改单词云的属性。有关属性列表,请参阅WordCloudChart属性.
从中提取文本sonnets.txt.
使用extractFileText
并显示第一个十四行诗的文本。
str = inthelfiletext(“sonnets.txt”);extractBefore (str,“II”的)
我们渴望从最美丽的生灵那里得到更多,这样美丽的玫瑰才能永不凋谢,但就像成熟的人会随着时间的消逝,他的柔弱的继承人可以继承他的记忆:但你,把自己的光明的眼睛束缚,用自我充实的燃料喂养你的光明的火焰,在富足的地方制造饥荒,把你自己当作敌人,对你那甜蜜的自我过于残酷:你现在是世界的新鲜装饰品,是迎接绚丽春天的唯一使者,在你自己的花蕾里埋葬了你的满足,温柔的粗鄙的人在吝啬中消磨了你的生命:可怜这世界吧,否则这贪吃鬼,就从坟墓和你那里把世界应得的东西吃掉吧。”
在一个词云中显示十四行诗中的词。
图WordCloud(str);
加载示例数据。该文件sonnetspreprocessed.txt.txt.
包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetspreprocessed.txt.txt.
,用换行符将文本分割成文档,然后对文档进行标记。
filename =“sonnetspreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
使用单词云可视化文档。
图wordcloud(文件);
加载示例数据。该文件sonnetspreprocessed.txt.txt.
包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetspreprocessed.txt.txt.
,用换行符将文本分割成文档,然后对文档进行标记。
filename =“sonnetspreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
使用袋式模型使用bagOfWords
.
袋= bagOfWords(文档)
BAG =具有属性的Bagofwords:Counts:[154x3092双]词汇:[“最公平”“生物”“欲望”......] Numwords:3092 NumFocuments:154
使用词云可视化词袋模型。
图wordcloud(袋);
加载示例数据Sonnetstable.
.表TBL.
包含变量中的单词列表词
,以及变量中的相应频率计数数数
.
加载Sonnetstable.头(台)
ANS =.8×2表字数 ___________ _____ {''' 这‘}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1
使用绘制表数据WordCloud.
.指定单词和相应的字大小词
和数数
变量分别。
图WordCloud(TBL,“词”那'数数');标题(“十四行诗词云”的)
在此示例中重现结果,设置rng
来'默认'
.
RNG('默认'的)
加载示例数据。该文件sonnetspreprocessed.txt.txt.
包含莎士比亚的Sonnets的预处理版本。该文件每行包含一个十四行诗,单词分隔一个空格。从中提取文本sonnetspreprocessed.txt.txt.
,用换行符将文本分割成文档,然后对文档进行标记。
filename =“sonnetspreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
使用袋式模型使用bagOfWords
.
袋= bagOfWords(文档)
BAG =具有属性的Bagofwords:Counts:[154x3092双]词汇:[“最公平”“生物”“欲望”......] Numwords:3092 NumFocuments:154
适合20个主题的LDA模型。要抑制详细输出,请设置'verbose'
到0。
20岁的mdl = fitlda(包'verbose',0)
mdl = ldamodel具有属性:numtopics:20个字复制:1个题复杂:5次主题:5个柯克佩普科可用性:[0.0500 0.0500 0.0500 0.0500 0.0500 ...] DocumentTopicProbability:[154x20双]主题页:[3092x20双]词汇:[“最公平”“生物”..。]主题订单:'initial-fit-概率'fitinfo:[1x1 struct]
使用词云可视化前四个主题。
数字为了TopicIDX = 1:4子图(2,2,TopicIDX)WordCloud(MDL,TopicIDX);标题(“话题: ”+ TopicIDX)结尾
str
-输入文本输入文本,指定为字符串数组,字符向量或字符向量阵列。
对于字符串输入,WordCloud.
和wordCloudCounts
功能使用英语,日语,德语和韩语标记,停止删除字词和字标准化。
例子:[“简短文件的一个例子”;“第二个简短文件”]
数据类型:字符串
|char
|细胞
文档
-输入文档tokenizedDocument
大批输入文档,指定为tokenizedDocument
大批。
Wordvar.
-Word数据的表变量Word数据的表变量,指定为字符串标量,字符向量,数字索引或逻辑向量。
数据类型:单
|双倍的
|int8
|INT16
|INT32.
|INT64.
|uint8
|uint16
|uint32
|uint64
|逻辑
|char
|字符串
sizeVar
-表变量大小数据表变量为尺寸数据,指定为字符串标量,字符向量,数字索引或逻辑向量。
数据类型:单
|双倍的
|int8
|INT16
|INT32.
|INT64.
|uint8
|uint16
|uint32
|uint64
|逻辑
|char
|字符串
字
-输入单词输入单词,指定为字符串向量或字符向量的单元格数组。
数据类型:字符串
|细胞
大小写
-单词尺寸数据单词尺寸数据,指定为数字矢量。
数据类型:单
|双倍的
|int8
|INT16
|INT32.
|INT64.
|uint8
|uint16
|uint32
|uint64
C
-输入分类数据输入分类数据,指定为分类数组。函数绘制每个唯一元素C
大小对应histcounts(c)
.
数据类型:分类
包
-输入模型bagOfWords
目的|bagOfNgrams
目的输入词袋或n-grams袋模型,指定为bagOfWords
对象或一个bagOfNgrams
对象。如果包
是一个bagOfNgrams
对象,然后该函数将每个n-gram视为单个单词。
ldaMdl
-输入LDA模型ldamodel.
目的输入LDA模型,指定为ldamodel.
对象。
topicIdx
-LDA主题索引LDA主题的索引,指定为非负整数。
父母
-父父级指定为图形,面板或选项卡。
指定可选的逗号分离对名称,价值
论点。的名字
是参数名称和价值
为对应值。的名字
必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen
.
“HighlightColor”、“蓝”
指定要蓝色的突出显示颜色。
这WordCloudChart.
这里列出的属性仅是一个子集。有关完整列表,请参阅WordCloudChart属性.
MaxDisplayWords
-要显示的最大单词数要显示的最大单词数,指定为非负整数。软件显示MaxDisplayWords
最大的词。
颜色
-字的颜色(0.2510 0.2510 0.2510)
(默认)|RGB三重态|包含颜色名称的字符向量|矩阵字颜色,指定为RGB三元组、包含颜色名称的字符向量或N.
-By-3矩阵在其中N.
是长度WordData.
.如果颜色
是矩阵,然后每行对应于相应单词的RGB三联网WordData.
.
RGB三合一和十六进制颜色代码用于指定自定义颜色。
RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色分量的强度。强度一定在范围内[0,1]
;例如,(0.4 0.6 0.7)
.
十六进制颜色码是一个字符向量或以散列符号(#
)接着是三个或六个十六进制数字,可以从0.
来F
.这些值不区分大小写。因此,颜色编码“# FF8800”
那'#ff8800'
那“# F80”
,'#f80'
是等同的。
或者,您可以按名称指定一些常见颜色。此表列出了命名的颜色选项,等效RGB三元组和十六进制颜色代码。
颜色名称 | 简称 | RGB三重态 | 十六进制颜色代码 | 外观 |
---|---|---|---|---|
'红色的' |
'r' |
(1 0 0) |
'#ff0000' |
|
'绿色' |
'G' |
[0 1 0] |
'#00ff00' |
|
'蓝色' |
“b” |
[0 0 1] |
'#0000ff' |
|
“青色” |
“c” |
[0 1 1] |
'#00ffff' |
|
'品红' |
'M' |
(1 0 1) |
'#ff00ff' |
|
“黄色” |
'是' |
[1 1 0] |
'#ffff00' |
|
“黑” |
'k' |
[0 0 0] |
'#000000' |
|
'白色的' |
'W' |
[1 1 1] |
'#ffffff' |
|
这里是MATLAB在许多类型的绘图中使用的默认颜色的RGB三组和十六进制颜色代码。
RGB三重态 | 十六进制颜色代码 | 外观 |
---|---|---|
[0 0.4470 0.7410] |
'#0072bd' |
|
[0.8500 0.3250 0.0980] |
'#d95319' |
|
[0.9290 0.6940 0.1250] |
“# EDB120” |
|
[0.4940 0.1840 0.5560] |
'#7e2f8e' |
|
[0.4660 0.6740 0.1880] |
'#77ac30' |
|
[0.3010 0.7450 0.9330] |
'#4dbeee' |
|
(0.6350 0.0780 0.1840) |
'#a2142f' |
|
例子:'蓝色'
例子:[0 0 1]
HighlightColor
-字突出显示颜色[0.8510 0.3255 0.0980]
(默认)|RGB三重态|包含颜色名称的字符向量Word突出显示颜色,指定为RGB三联网,或包含颜色名称的字符向量。该软件突出显示了具有此颜色的最大词。
RGB三合一和十六进制颜色代码用于指定自定义颜色。
RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色分量的强度。强度一定在范围内[0,1]
;例如,(0.4 0.6 0.7)
.
十六进制颜色码是一个字符向量或以散列符号(#
)接着是三个或六个十六进制数字,可以从0.
来F
.这些值不区分大小写。因此,颜色编码“# FF8800”
那'#ff8800'
那“# F80”
,'#f80'
是等同的。
或者,您可以按名称指定一些常见颜色。此表列出了命名的颜色选项,等效RGB三元组和十六进制颜色代码。
颜色名称 | 简称 | RGB三重态 | 十六进制颜色代码 | 外观 |
---|---|---|---|---|
'红色的' |
'r' |
(1 0 0) |
'#ff0000' |
|
'绿色' |
'G' |
[0 1 0] |
'#00ff00' |
|
'蓝色' |
“b” |
[0 0 1] |
'#0000ff' |
|
“青色” |
“c” |
[0 1 1] |
'#00ffff' |
|
'品红' |
'M' |
(1 0 1) |
'#ff00ff' |
|
“黄色” |
'是' |
[1 1 0] |
'#ffff00' |
|
“黑” |
'k' |
[0 0 0] |
'#000000' |
|
'白色的' |
'W' |
[1 1 1] |
'#ffffff' |
|
这里是MATLAB在许多类型的绘图中使用的默认颜色的RGB三组和十六进制颜色代码。
RGB三重态 | 十六进制颜色代码 | 外观 |
---|---|---|
[0 0.4470 0.7410] |
'#0072bd' |
|
[0.8500 0.3250 0.0980] |
'#d95319' |
|
[0.9290 0.6940 0.1250] |
“# EDB120” |
|
[0.4940 0.1840 0.5560] |
'#7e2f8e' |
|
[0.4660 0.6740 0.1880] |
'#77ac30' |
|
[0.3010 0.7450 0.9330] |
'#4dbeee' |
|
(0.6350 0.0780 0.1840) |
'#a2142f' |
|
例子:'蓝色'
例子:[0 0 1]
形状
-词云的形状“椭圆”
(默认)|'长方形'
词云图表的形状,指定为“椭圆”
或'长方形'
.
例子:'长方形'
wc
-WordCloudChart.
目的WordCloudChart.
目的WordCloudChart.
对象。您可以修改a的属性WordCloudChart.
创建完成后。有关更多信息,请参见WordCloudChart属性.
对于字符串输入,WordCloud.
和wordCloudCounts
功能使用英语,日语,德语和韩语标记,停止删除字词和字标准化。
对于其他语言,您可能需要手动预处理您的文本数据并指定唯一的单词和相应的大小WordCloud.
.
中指定字的大小WordCloud.
,将数据作为表格或包含唯一单词和相应大小的阵列。
Sie Haben EineGeänderte版Dieses Beispiels。MöchtenSieDieses Beispiel Mit IhrenÄnderungenÖffnen?
您有一个链接,上面写着MATLAB-Befehl:
Führensieden befehl Durch Eingabe在Das Matlab-Befehlsfenster Aus。WebBrowserUnterstützenkeine matlab-befehle。
您也可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获得最佳网站性能。其他MathWorks国家网站未优化您所在地的访问。