topkwords

词袋模型或LDA主题中最重要的词

折叠所有页面

语法

顶级词汇(包)

TBL = topkwords(包，k)

tbl = topkwords(lddamdl,k,topicIdx)

TBL =热门词汇(＿＿＿、名称、值)

描述

例子

资源描述= topkwords (袋)返回单词袋模型中单词数最多的五个单词的表格袋．缺省情况下，该函数区分大小写。

例子

资源描述= topkwords (袋，k)属性的表k字数最多的单词。缺省情况下，该函数区分大小写。

例子

资源描述= topkwords (ldaMdl，k，topicIdx)属性的表k潜在狄利克雷分配(LDA)主题中概率最高的单词topicIdxLDA模型ldaMdl．

例子

资源描述= topkwords (＿＿＿，名称,值)使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

词袋模型中最常出现的词

打开实时脚本

创建单词袋模型中出现频率最高的单词表。

加载示例数据。该文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，用空格分隔单词。从中提取文本sonnetsPreprocessed.txt，以换行符将文本分割为文档，然后对文档进行标记。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

使用创建单词袋模型bagOfWords．

bag = bagOfWords(文档)

带有属性的单词:[154x3092 double]词汇:["最公平的" "生物" "欲望"…NumWords: 3092 NumDocuments: 154

找出排名前五的单词。

T = topkwords(包);

找出模型中排名前20的单词。

K = 20;T = topkwords(包，k)

T =20×2表字数统计________ _____“你的”281“你”234“爱”162“你”161“做”88“我的”63“应”59“眼睛”56“甜蜜”55“时间”53“美”52“也”52“艺术”51“但“51”o“50”心“50”50“

LDA主题的最高概率词

打开实时脚本

创建一个LDA主题概率最高的单词表。

若要重现结果，请设置rng来“默认”．

rng (“默认”)

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData = split(str，换行符);documents = tokenizedDocument(textData);

使用创建单词袋模型bagOfWords．

bag = bagOfWords(文档);

拟合20个主题的LDA模型。若要抑制详细输出，请设置“详细”为0。

numTopics = 20;mdl = fitlda(包，numTopics，“详细”, 0);

找出第一个主题的前20个单词。

K = 20;topicIdx = 1;tbl = topkwords(mdl,k,topicIdx)

台=20×2表单词分数________ _________“眼睛”0.11155“美”0.05777“有“0.055778”还“0.049801”真“0.043825”矿“0.033865”找“0.031873”黑“0.025897”看“0.023905”是“0.023905”种“0.021913”见“0.021913”发现“0.017929”罪“0.015937”三“0.013945”金“0.0099608”\

找到第一个主题的前20个单词，并对分数使用逆平均缩放。

tbl = topkwords(mdl,k,topicIdx，“缩放”，“inversemean”)

台=20×2表单词分数________ ________“眼睛”1.2718“美丽”0.59022“有“0.5692”仍然“0.50269”真“0.43719”矿“0.32764”找到“0.32544”黑“0.25931”是“0.23755”看“0.22519”种“0.21594”见“0.21594”发现“0.17326”罪“0.15223”三“0.13143”金“0.090698”相关

使用缩放分数作为大小数据创建一个词云。

图wordcloud (tbl.Word tbl.Score);

图中包含一个wordcloud类型的对象。

输入参数

全部折叠

`袋`- - - - - -输入单词袋模型
`bagOfWords`对象

输入单词袋模型，指定为bagOfWords对象。

`k`- - - - - -字数
非负整数

要返回的字数，指定为正整数。

例子:20.

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

输入LDA模型，指定为ldaModel对象。

`topicIdx`- - - - - -LDA主题索引
非负整数

LDA主题的索引，指定为非负整数。

名称-值参数

的可选逗号分隔对名称,值参数。的名字参数名称和价值对应的值。的名字必须出现在引号内。您可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:“缩放”、“inversemean”指定对主题词概率使用逆平均缩放。

词袋模型选项

全部折叠

`IgnoreCase`- - - - - -选项忽略大小写
`假`(默认)|`真正的`

选项忽略大小写，指定为逗号分隔的对，由“IgnoreCase”和以下其中之一:

假-将仅因大小写而不同的单词视为单独的单词。
真正的-将大小写不同的单词视为同一个单词，合并计数。

此选项仅支持单词袋输入。金宝app

`ForceCellOutput`- - - - - -用于强制将输出作为单元格数组返回的指示器
`假`(默认)|`真正的`

指示符，用于强制输出作为单元格数组返回，指定为逗号分隔的对，由“ForceCellOutput”而且真正的或假．

此选项仅支持单词袋输入。金宝app

数据类型:逻辑

LDA模型选项

全部折叠

`扩展`- - - - - -缩放应用于主题词概率
`“没有”`(默认)|`“inversemean”`

缩放以应用于主题词概率，指定为由逗号分隔的对组成“缩放”和以下其中之一:

“没有”-返回后验单词概率。
“inversemean”-通过该词在所有主题上的后验概率的几何平均值，归一化每个主题的后验词概率。函数使用公式φ。*(日志(φ)意味着(日志(φ),1)),在那里φ对应于ldaMdl。TopicWordProbabilities．

此选项仅支持LDA模型输金宝app入。

例子:“缩放”、“inversemean”

数据类型:字符

输出参数

全部折叠

`资源描述`-顶部单词表
表|单元格表数组

表顶部的单词排序的重要性或单元格数组的表。

当输入是单词袋模型时，表有以下列:

`词`	作为字符串指定的词
`数`	单词在单词袋模型中出现的次数

如果袋是非标量数组还是“ForceCellOutput”是真正的，则该函数将输出作为表格单元格数组返回。单元格数组中的每个元素都是一个表，其中包含的对应元素的顶部单词袋．

当输入为LDA模型时，表中有以下列:

`词`	作为字符串指定的词
`分数`	给定LDA主题的词概率

提示

要找到n-grams袋模型中最常见的n-grams，请使用topkngrams．

另请参阅

主题

在R2017b中引入

文本分析工具箱文档

金宝app

开始使用MATLAB中的文本分析

立即下载

topkwords

语法

描述

例子

词袋模型中最常出现的词

LDA主题的最高概率词

输入参数

袋- - - - - -输入单词袋模型bagOfWords对象

k- - - - - -字数非负整数

ldaMdl- - - - - -输入LDA模型ldaModel对象

topicIdx- - - - - -LDA主题索引非负整数

名称-值参数

IgnoreCase- - - - - -选项忽略大小写假(默认)|真正的

ForceCellOutput- - - - - -用于强制将输出作为单元格数组返回的指示器假(默认)|真正的

扩展- - - - - -缩放应用于主题词概率“没有”(默认)|“inversemean”

输出参数

资源描述-顶部单词表表|单元格表数组

提示

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB中的文本分析

`袋`- - - - - -输入单词袋模型
`bagOfWords`对象

`k`- - - - - -字数
非负整数

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

`topicIdx`- - - - - -LDA主题索引
非负整数

`IgnoreCase`- - - - - -选项忽略大小写
`假`(默认)|`真正的`

`ForceCellOutput`- - - - - -用于强制将输出作为单元格数组返回的指示器
`假`(默认)|`真正的`

`扩展`- - - - - -缩放应用于主题词概率
`“没有”`(默认)|`“inversemean”`

`资源描述`-顶部单词表
表|单元格表数组