topkwords

最重要的是单词bag-of-words模型或LDA的话题

所有的页面崩溃

语法

台= topkwords(袋)

台= topkwords(袋、k)

台= topkwords (ldaMdl k topicIdx)

台= topkwords (___、名称、值)

描述

例子

资源描述= topkwords (袋)返回一个表最大的五个词单词统计bag-of-words模型袋。这个函数,默认情况下,是区分大小写的。

例子

资源描述= topkwords (袋,k)返回一个表k单词最大的单词计数。这个函数,默认情况下,是区分大小写的。

例子

资源描述= topkwords (ldaMdl,k,topicIdx)返回一个表k话说概率最高的潜在狄利克雷分配(LDA)的话题topicIdx在LDA模型ldaMdl。

例子

资源描述= topkwords (___,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

最常见的Bag-of-Words模型

打开生活的脚本

创建一个表的最频繁的词语bag-of-words模型。

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-words模型使用bagOfWords。

袋= bagOfWords(文档)

袋= bagOfWords属性:计数:[154 x3092双]词汇:“公平”“生物”“欲望”…]NumWords: 3092 NumDocuments: 154

找到五个字。

T = topkwords(袋);

发现模型中的前20个单词。

k = 20;T = topkwords(袋、k)

T =20×2表字数________ _____”你的“281”你“234”爱“162”你“161”作“88”我“63“应当”59 56“眼睛”“甜”55“时间”53“美”52”还是“52“艺术”51“然而”51“o”50 50⋮“心”

概率最高的LDA的话题

打开生活的脚本

创建一个表的概率最高的单词LDA的话题。

复制的结果,集rng来“默认”。

rng (“默认”)

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-words模型使用bagOfWords。

袋= bagOfWords(文件);

适合一个LDA模型与20的话题。抑制详细输出,集“详细”为0。

numTopics = 20;mdl = fitlda(袋、numTopics、“详细”,0);

找到第一个主题的前20个单词。

k = 20;topicIdx = 1;台= topkwords (mdl k topicIdx)

台=20×2表词分________ _____“眼睛”0.11155“美”0.05777”、“0.055778”“0.049801”真正的“0.043825”我“0.033865”找到“0.031873“黑色”0.025897“看“0.023905”是“0.023905”“0.021913”“0.021913”发现“0.017929“罪恶”0.015937”三个“0.013945 0.0099608⋮“黄金”

找到第一个主题的前20个单词并使用逆意味着分数缩放。

台= topkwords (mdl k topicIdx,“缩放”,“inversemean”)

台=20×2表词得分说“眼睛”1.2718“美”0.59022”、“0.5692”“0.50269”真正的“0.43719”我“0.32764”找到“0.32544“黑色”0.25931”这“0.23755”“0.22519”“0.21594”“0.21594”发现“0.17326“罪恶”0.15223”三个“0.13143 0.090698⋮“黄金”

创建一个词云使用比例分数作为大小的数据。

图wordcloud (tbl.Word tbl.Score);

图包含一个wordcloud类型的对象。

输入参数

全部折叠

`袋`- - - - - -输入bag-of-words模型
`bagOfWords`对象

输入bag-of-words模型,指定为一个bagOfWords对象。

`k`- - - - - -单词量
非负整数

话说回来,指定为一个正整数。

例子:20.

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

输入LDA模型,指定为一个ldaModel对象。

`topicIdx`- - - - - -指数LDA的话题
非负整数

指数LDA的话题,指定为一个非负整数。

名称-值参数

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家。

例子:“缩放”、“inversemean”指定使用逆概率意味着在这个话题上扩展词。

Bag-of-Words模型选项

全部折叠

`IgnoreCase`- - - - - -选项来忽略大小写
`假`(默认)|`真正的`

选项来忽略大小写,指定为逗号分隔组成的“IgnoreCase”和下列之一:

假——对待单词不同的只有案例作为单独的单词。
真正的——把话说不同只有同一个词和合并计算。

此选项仅支持bag-of金宝app-words输入。

`ForceCellOutput`- - - - - -迫使输出指标作为细胞数组返回
`假`(默认)|`真正的`

迫使输出指标作为细胞数组,返回指定为逗号分隔组成的“ForceCellOutput”和真正的或假。

此选项仅支持bag-of金宝app-words输入。

数据类型:逻辑

LDA模型选项

全部折叠

`扩展`- - - - - -扩展适用于主题概率
`“没有”`(默认)|`“inversemean”`

扩展适用于主题概率,指定为逗号分隔组成的“缩放”和下列之一:

“没有”——返回后词概率。
“inversemean”——正常化后词概率/主题的几何平均后验概率这个词在所有的话题。函数使用的公式φ。*(日志(φ)意味着(日志(φ),1)),在那里φ对应于ldaMdl.TopicWordProbabilities。

此选项仅支持LDA模型输金宝app入。

例子:“缩放”、“inversemean”

数据类型:字符

输出参数

全部折叠

`资源描述`——最热门词汇表
表|单元阵列的表

按照重要性排序表的词汇或单元阵列表。

当输入一个bag-of-words模型,表列如下:

`词`	词指定为一个字符串
`数`	这个词出现的次数在bag-of-words模型中

如果袋是一种基本数组或“ForceCellOutput”是真正的,那么函数返回单元阵列的输出表。单元阵列中的每个元素是一个表,它包含的对应元素的最热门词汇袋。

当输入一个LDA模型,表列如下:

`词`	词指定为一个字符串
`分数`	词概率给定LDA的话题

提示

寻找最常见字格在bag-of-n-grams模型中,使用topkngrams。

另请参阅

主题

介绍了R2017b

文本分析工具箱文档

金宝app

开始使用MATLAB的文本分析

立即下载

topkwords

语法

描述

例子

最常见的Bag-of-Words模型

概率最高的LDA的话题

输入参数

袋- - - - - -输入bag-of-words模型bagOfWords对象

k- - - - - -单词量非负整数

ldaMdl- - - - - -输入LDA模型ldaModel对象

topicIdx- - - - - -指数LDA的话题非负整数

名称-值参数

IgnoreCase- - - - - -选项来忽略大小写假(默认)|真正的

ForceCellOutput- - - - - -迫使输出指标作为细胞数组返回假(默认)|真正的

扩展- - - - - -扩展适用于主题概率“没有”(默认)|“inversemean”

输出参数

资源描述——最热门词汇表表|单元阵列的表

提示

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB的文本分析

`袋`- - - - - -输入bag-of-words模型
`bagOfWords`对象

`k`- - - - - -单词量
非负整数

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

`topicIdx`- - - - - -指数LDA的话题
非负整数

`IgnoreCase`- - - - - -选项来忽略大小写
`假`(默认)|`真正的`

`ForceCellOutput`- - - - - -迫使输出指标作为细胞数组返回
`假`(默认)|`真正的`

`扩展`- - - - - -扩展适用于主题概率
`“没有”`(默认)|`“inversemean”`

`资源描述`——最热门词汇表
表|单元阵列的表