主要内容

topkwords

最重要的是单词bag-of-words模型或LDA的话题

描述

例子

资源描述= topkwords ()返回一个表最大的五个词单词统计bag-of-words模型。这个函数,默认情况下,是区分大小写的。

例子

资源描述= topkwords (,k)返回一个表k单词最大的单词计数。这个函数,默认情况下,是区分大小写的。

例子

资源描述= topkwords (ldaMdl,k,topicIdx)返回一个表k话说概率最高的潜在狄利克雷分配(LDA)的话题topicIdx在LDA模型ldaMdl

例子

资源描述= topkwords (___,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

创建一个表的最频繁的词语bag-of-words模型。

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-words模型使用bagOfWords

袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[154 x3092双]词汇:“公平”“生物”“欲望”…]NumWords: 3092 NumDocuments: 154

找到五个字。

T = topkwords(袋);

发现模型中的前20个单词。

k = 20;T = topkwords(袋、k)
T =20×2表字数________ _____”你的“281”你“234”爱“162”你“161”作“88”我“63“应当”59 56“眼睛”“甜”55“时间”53“美”52”还是“52“艺术”51“然而”51“o”50 50⋮“心”

创建一个表的概率最高的单词LDA的话题。

复制的结果,集rng“默认”

rng (“默认”)

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-words模型使用bagOfWords

袋= bagOfWords(文件);

适合一个LDA模型与20的话题。抑制详细输出,集“详细”为0。

numTopics = 20;mdl = fitlda(袋、numTopics、“详细”,0);

找到第一个主题的前20个单词。

k = 20;topicIdx = 1;台= topkwords (mdl k topicIdx)
台=20×2表词分________ _____“眼睛”0.11155“美”0.05777”、“0.055778”“0.049801”真正的“0.043825”我“0.033865”找到“0.031873“黑色”0.025897“看“0.023905”是“0.023905”“0.021913”“0.021913”发现“0.017929“罪恶”0.015937”三个“0.013945 0.0099608⋮“黄金”

找到第一个主题的前20个单词并使用逆意味着分数缩放。

台= topkwords (mdl k topicIdx,“缩放”,“inversemean”)
台=20×2表词得分说“眼睛”1.2718“美”0.59022”、“0.5692”“0.50269”真正的“0.43719”我“0.32764”找到“0.32544“黑色”0.25931”这“0.23755”“0.22519”“0.21594”“0.21594”发现“0.17326“罪恶”0.15223”三个“0.13143 0.090698⋮“黄金”

创建一个词云使用比例分数作为大小的数据。

图wordcloud (tbl.Word tbl.Score);

图包含一个wordcloud类型的对象。

输入参数

全部折叠

输入bag-of-words模型,指定为一个bagOfWords对象。

话说回来,指定为一个正整数。

例子:20.

输入LDA模型,指定为一个ldaModel对象。

指数LDA的话题,指定为一个非负整数。

名称-值参数

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:“缩放”、“inversemean”指定使用逆概率意味着在这个话题上扩展词。
Bag-of-Words模型选项

全部折叠

选项来忽略大小写,指定为逗号分隔组成的“IgnoreCase”和下列之一:

  • ——对待单词不同的只有案例作为单独的单词。

  • 真正的——把话说不同只有同一个词和合并计算。

此选项仅支持bag-of金宝app-words输入。

迫使输出指标作为细胞数组,返回指定为逗号分隔组成的“ForceCellOutput”真正的

此选项仅支持bag-of金宝app-words输入。

数据类型:逻辑

LDA模型选项

全部折叠

扩展适用于主题概率,指定为逗号分隔组成的“缩放”和下列之一:

  • “没有”——返回后词概率。

  • “inversemean”——正常化后词概率/主题的几何平均后验概率这个词在所有的话题。函数使用的公式φ。*(日志(φ)意味着(日志(φ),1)),在那里φ对应于ldaMdl.TopicWordProbabilities

此选项仅支持LDA模型输金宝app入。

例子:“缩放”、“inversemean”

数据类型:字符

输出参数

全部折叠

按照重要性排序表的词汇或单元阵列表。

当输入一个bag-of-words模型,表列如下:

词指定为一个字符串
这个词出现的次数在bag-of-words模型中

如果是一种基本数组或“ForceCellOutput”真正的,那么函数返回单元阵列的输出表。单元阵列中的每个元素是一个表,它包含的对应元素的最热门词汇

当输入一个LDA模型,表列如下:

词指定为一个字符串
分数 词概率给定LDA的话题

提示

  • 寻找最常见字格在bag-of-n-grams模型中,使用topkngrams

介绍了R2017b