主要内容

topkwords

单词袋模型或LDA主题中最重要的单词

描述

例子

资源描述= topkwords (返回单词袋模型中包含最大单词数的五个单词的表.缺省情况下,该函数区分大小写。

例子

资源描述= topkwords (k的表k单词数最多的单词。缺省情况下,该函数区分大小写。

例子

资源描述= topkwords (ldaMdlktopicIdx的表k潜在狄利克雷分配(LDA)主题中概率最高的词topicIdxLDA模型中ldaMdl

例子

资源描述= topkwords (___名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

创建一个单词袋模型中最常用单词的表。

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个词袋模型使用bagOfWords

袋= bagOfWords(文档)
单词:[" fairrest " "creatures" "desire"…NumWords: 3092 NumDocuments: 154

找出最常用的五个单词。

T = topkwords(袋);

在模型中找出前20个单词。

k = 20;T = topkwords(袋、k)
T =20×2表词数________ _____ "你" 281 "你" 234 "爱" 162 "你" 161 "做" 88 "我" 63 "将" 59 "眼睛" 56 "甜蜜" 55 "时间" 53 "美" 52 "或"艺术" 51 "但" 51 " "心" 50⋮

创建一个包含LDA主题概率最高的单词的表。

要重现结果,请设置rng“默认”

rng (“默认”

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个词袋模型使用bagOfWords

袋= bagOfWords(文件);

拟合具有20个主题的LDA模型。要抑制verbose输出,请设置“详细”为0。

numTopics = 20;mdl = fitlda(袋、numTopics、“详细”, 0);

找出第一个主题的前20个单词。

k = 20;topicIdx = 1;台= topkwords (mdl k topicIdx)
台=20×2表单词得分________ _________“eyes”0.11155“beauty”0.01577“has”0.055778“still”0.049801“true”0.043825“mine”0.033865“find”0.031873“black”0.025897“look”0.023905“tis”0.023905“kind”0.021913“seen”0.021913“found”0.017929“sin”0.015937“three”0.013945“golden”0.0099608⋮

找到第一个主题的前20个单词,并使用反平均比例的分数。

台= topkwords (mdl k topicIdx,“缩放”“inversemean”
台=20×2表单词得分________ ________ "eyes" 1.2718 "beauty" 0.9022 " has " 0.5692 "still" 0.50269 "true" 0.43719 "mine" 0.32764 "find" 0.32544 "black" 0.25931 "tis" 0.23755 "look" 0.22519 "kind" 0.21594 "seen" 0.21594 "found" 0.17326 "sin" 0.15223 "three" 0.13143 "golden" 0.090698⋮

使用缩放的分数作为大小数据创建一个单词云。

图wordcloud (tbl.Word tbl.Score);

图中包含一个wordcloud类型的对象。

输入参数

全部折叠

输入词袋模型,指定为bagOfWords对象。

要返回的字数,指定为正整数。

例子:20.

输入LDA模型,指定为ldaModel对象。

LDA主题索引,指定为非负整数。

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“缩放”、“inversemean”指定对主题词的概率使用逆平均缩放。
Bag-of-Words模型选项

全部折叠

选项忽略大小写,指定为逗号分隔的对,由“IgnoreCase”以及以下其中之一:

  • -将大小写不同的单词作为单独的单词。

  • 真正的-将大小写不同的单词视为相同的单词,并合并计数。

这个选项只支持单词袋输入金宝app。

强制将输出作为单元格数组返回的指示符,指定为由逗号分隔的对组成“ForceCellOutput”真正的

这个选项只支持单词袋输入金宝app。

数据类型:逻辑

LDA模型选项

全部折叠

扩展以应用于主题词的概率,指定为逗号分隔对,由“缩放”以及以下其中之一:

  • “没有”-返回后一个词的概率。

  • “inversemean”-对每个主题的后验词概率进行归一化,该概率为该词在所有主题中的后验概率的几何平均值。这个函数使用这个公式φ。*(日志(φ)意味着(日志(φ),1)),在那里φ对应于ldaMdl。TopicWordProbabilities

此选项仅支持LDA模型输金宝app入。

例子:“缩放”、“inversemean”

数据类型:字符

输出参数

全部折叠

按重要性排序的最上面的单词的表格或表格的单元格数组。

当输入是单词袋模型时,表有以下几列:

指定为字符串的字
单词袋模型中单词出现的次数

如果是非标量数组还是“ForceCellOutput”真正的,然后该函数将输出作为表的单元格数组返回。单元格数组中的每个元素都是一个表,其中包含对应元素的顶部单词

当输入为LDA模型时,表中有以下几列:

指定为字符串的字
分数 给定LDA主题的单词概率

提示

  • 要在n-g包模型中找到最常见的n-g,请使用topkngrams

介绍了R2017b