rakeKeywords

使用RAKE提取关键词

折叠所有页面

语法

台= rakeKeywords(文档)

台= rakeKeywords(文档名称、值)

描述

例子

资源描述= rakeKeywords (文档）使用快速自动关键字提取(RAKE)算法提取关键词和各自的分数。该函数支持英语、日语、德语金宝app和韩语文本。学会如何使用rakeKeywords对于其他语言，请参阅语言的注意事项．

例子

资源描述= rakeKeywords (文档，名称,值）使用一个或多个名称-值对参数指定其他选项。

提示

的rakeKeywords函数，在默认情况下，使用停止词和标点字符提取关键字。的默认值“分隔符”和“MergingDelimiters”选项中，不要从输入文本中删除停止字或标点字符。

例子

全部折叠

利用RAKE提取关键词

打开生活的脚本

创建包含文本数据的标记化文档数组。

textData = [MATLAB为科学家和工程师提供了工具。科学家和工程师使用MATLAB。”分析文本和图像。你可以导入文本和图像。”分析文本和图像。在MATLAB中分析文本、图像和视频。];文件= tokenizedDocument (textData);

提取关键字使用rakeKeywords函数。

台= rakeKeywords(文档)

台=12×3表关键字DocumentNumber得分  _________________________________________ ______________ _____ " MATLAB”“提供”“工具”1 8“MATLAB”“”“”1 2“科学家”“和”“工程师”1 2“工程师”“”“1 1”科学家”“”“1 1”分析“文本”““2 4“进口”“文本”““2 4“图像”“”“”2 1”分析“文本”“3 4”MATLAB”“”“”“”“”“3 1”图像3 1"videos" "" "" 3 1

如果关键字包含多个单词，则我字符串数组的第Th元素对应于我关键字的字。如果关键字的单词比最长关键字的单词少，则字符串数组的其余条目为空字符串＂＂．

属性将多字关键字转换为单个字符串，以提高可读性加入和带功能。

如果> 1 tbl. size(tbl. keyword,2);关键字= strip(join(tbl.Keyword));结束资源描述

台=12×3表关键字DocumentNumber得分  __________________________ ______________ _____ " MATLAB提供的工具MATLAB“1 2”“1 8”科学家和工程师“1 2”工程师“1 1”科学家“1 1”分析文本2 4“导入文本“2 4”图像“2 - 1”分析文本“3 4”MATLAB“3 1”图片“3 1”视频“3 1

指定每个文档的最大关键字数量

打开生活的脚本

创建包含文本数据的标记化文档数组。

textData = [MATLAB为科学家和工程师提供了工具。科学家和工程师使用MATLAB。”分析文本和图像。你可以导入文本和图像。”分析文本和图像。在MATLAB中分析文本、图像和视频。];文件= tokenizedDocument (textData);

提取前两个关键词使用rakeKeywords函数，并设置“MaxNumKeywords”选项2．

台= rakeKeywords(文档,“MaxNumKeywords”，2)

台=6×3表关键字DocumentNumber得分  __________________________________ ______________ _____ " MATLAB”“提供”“工具”1 8“MATLAB”“”“”1 2“文本分析”“”“”2 4“进口”“文本”““2 4“文本分析”“”“”3 4“MATLAB”“”“”3 1

属性将多字关键字转换为单个字符串，以提高可读性加入和带功能。

如果> 1 tbl. size(tbl. keyword,2);关键字= strip(join(tbl.Keyword));结束资源描述

台=6×3表关键字DocumentNumber Score _______________________ ___________________ "MATLAB提供的工具" 1 8 "MATLAB" 1 2 "分析文本" 2 4 "导入文本" 2 4 "分析文本" 3 4 "MATLAB" 3 1

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

输入文档，指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。要指定多个文档，请使用tokenizedDocument数组中。

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:rakeKeywords(文档、“MaxNumKeywords”20)每个文档最多返回20个关键字。

`“MaxNumKeywords”`- - - - - -每个文档返回的关键字的最大数量
`正`(默认)|正整数

每个文档返回的关键字的最大数量，指定为逗号分隔对，由“MaxNumKeywords”一个正整数或正．

如果MaxNumKeywords是正，则该函数返回所有标识的关键字。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`“分隔符”`- - - - - -用于将文档分割成关键字的令牌
字符串数组|特征向量|字符向量的单元格数组

用于将文档分割成关键字的令牌，指定为由“分隔符”以及字符串数组、字符向量或字符向量的单元格数组。如果分隔符是字符向量，则它必须表示单个分隔符。

默认的分隔符列表是一个标点字符列表。

如果文档中出现了多个仅由合并分隔符分隔的候选关键字，则该函数将这些关键字和合并分隔符合并为一个关键字。

要指定用于合并的分隔符，请使用“MergingDelimiters”选择。

分隔符匹配不区分大小写。

数据类型:字符|字符串|细胞

`“MergingDelimiters”`- - - - - -分隔符也用于合并关键字
字符串数组|特征向量|字符向量的单元格数组

分隔符也用于合并关键字，指定为逗号分隔的对，由“MergingDelimiters”以及字符串数组、字符向量或字符向量的单元格数组。如果MergingDelimiters是字符向量，则它必须表示单个分隔符。

属性给出的停止词列表是合并分隔符的默认列表stopWords函数。

如果文档中出现了多个仅由合并分隔符分隔的候选关键字，则该函数将这些关键字和合并分隔符合并为一个关键字。

要指定不应用于合并的分隔符，请使用“分隔符”选择。

分隔符匹配不区分大小写。

数据类型:字符|字符串|细胞

输出参数

全部折叠

`资源描述`-提取关键字和分数
表格

提取的关键字和分数，返回为带有以下变量的表:

关键字-提取关键字，指定为1-by-maxNgramLength字符串数组,maxNgramLength是最长关键字中的字数。
DocumentNumber—包含相应关键字的文档编号。
分数—关键字评分。

如果文档中出现了多个仅由合并分隔符分隔的候选关键字，则该函数将这些关键字和合并分隔符合并为一个关键字。

如果关键字包含多个单词，则我对应的字符串数组的第Th元素对应于我关键字的字。如果关键字的单词比最长关键字的单词少，则字符串数组的其余条目为空字符串＂＂．

有关更多信息，请参见关键词快速自动提取．

提示

你可以尝试不同的关键字提取算法，看看什么最适合你的数据。由于RAKE关键字算法使用基于分隔符的方法来提取候选关键字，因此提取的关键字可能非常长。或者，您可以尝试使用TextRank算法提取关键字，该算法以单个令牌作为候选关键字开始，然后在适当时合并它们。要使用TextRank提取关键字，使用textrankKeywords函数。想要了解更多，请看使用TextRank从文本数据中提取关键词．

算法

全部折叠

关键词快速自动提取

对于每个文档，rakeKeywords函数根据下面的步骤独立提取关键字［1］：

确定候选关键词:
- 属性指定的分隔符之间提取标记序列“分隔符”和“MergingDelimiters”选项。该函数将每个序列视为单个候选关键字。
计算候选关键字的分数:
- 创建一个无向、无权重的图，其中的节点与候选关键字中的单个令牌对应。
- 在令牌在候选关键字(包括自共同出现)中共同出现的节点之间添加边，并根据包含该共同出现的候选关键字的数量加权。
- 使用公式为每个标记打分度(令牌)/频率(令牌),在那里度(令牌)指定标记和的边数是多少频率(令牌)指定的令牌在文档中出现的次数。
- 对于每个候选关键字，根据所包含标记的分数之和分配一个分数。
从候选人中提取热门关键词:
- 如果同一对候选关键字有多个实例，被相同的单个合并分隔符分隔，则将候选关键字和分隔符合并为单个关键字，并对相应的分数求和。
- 返回顶部k关键字,k是由“MaxNumKeywords”选择。

语言细节

tokenizedDocument对象包含有关标记的详细信息，包括语言细节。输入文档的语言细节决定了rakeKeywords．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。要手动指定语言细节，请使用“语言”的名称-值对参数tokenizedDocument．要查看令牌详细信息，请使用tokenDetails函数。

参考文献

罗斯、斯图尔特、戴夫·恩格尔、尼克·克莱默和温迪·考利。“从单个文档中自动提取关键字。”文本挖掘:应用与理论1(2010): 1 - 20。

另请参阅

extractSummary|textrankKeywords|tokenizedDocument

主题

介绍了R2020b

rakeKeywords

语法

描述

例子

利用RAKE提取关键词

指定每个文档的最大关键字数量

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

名称-值对的观点

`“MaxNumKeywords”`- - - - - -每个文档返回的关键字的最大数量
`正`(默认)|正整数

`“分隔符”`- - - - - -用于将文档分割成关键字的令牌
字符串数组|特征向量|字符向量的单元格数组

`“MergingDelimiters”`- - - - - -分隔符也用于合并关键字
字符串数组|特征向量|字符向量的单元格数组

输出参数

`资源描述`-提取关键字和分数
表格

更多关于

语言的注意事项

提示

算法

关键词快速自动提取

语言细节

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

rakeKeywords

语法

描述

例子

利用RAKE提取关键词

指定每个文档的最大关键字数量

输入参数

文档- - - - - -输入文档tokenizedDocument数组|字串数组|字符向量的单元格数组

名称-值对的观点

“MaxNumKeywords”- - - - - -每个文档返回的关键字的最大数量正(默认)|正整数

“分隔符”- - - - - -用于将文档分割成关键字的令牌字符串数组|特征向量|字符向量的单元格数组

“MergingDelimiters”- - - - - -分隔符也用于合并关键字字符串数组|特征向量|字符向量的单元格数组

输出参数

资源描述-提取关键字和分数表格

更多关于

语言的注意事项

提示

算法

关键词快速自动提取

语言细节

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`“MaxNumKeywords”`- - - - - -每个文档返回的关键字的最大数量
`正`(默认)|正整数

`“分隔符”`- - - - - -用于将文档分割成关键字的令牌
字符串数组|特征向量|字符向量的单元格数组

`“MergingDelimiters”`- - - - - -分隔符也用于合并关键字
字符串数组|特征向量|字符向量的单元格数组

`资源描述`-提取关键字和分数
表格