主要内容

rakeKeywords

使用RAKE提取关键词

    描述

    例子

    资源描述= rakeKeywords (文档使用快速自动关键字提取(RAKE)算法提取关键词和各自的分数。该函数支持英语、日语、德语金宝app和韩语文本。学会如何使用rakeKeywords对于其他语言,请参阅语言的注意事项

    例子

    资源描述= rakeKeywords (文档名称,值使用一个或多个名称-值对参数指定其他选项。

    提示

    rakeKeywords函数,在默认情况下,使用停止词和标点字符提取关键字。的默认值“分隔符”“MergingDelimiters”选项中,不要从输入文本中删除停止字或标点字符。

    例子

    全部折叠

    创建包含文本数据的标记化文档数组。

    textData = [MATLAB为科学家和工程师提供了工具。科学家和工程师使用MATLAB。”分析文本和图像。你可以导入文本和图像。”分析文本和图像。在MATLAB中分析文本、图像和视频。];文件= tokenizedDocument (textData);

    提取关键字使用rakeKeywords函数。

    台= rakeKeywords(文档)
    台=12×3表关键字DocumentNumber得分  _________________________________________ ______________ _____ " MATLAB”“提供”“工具”1 8“MATLAB”“”“”1 2“科学家”“和”“工程师”1 2“工程师”“”“1 1”科学家”“”“1 1”分析“文本”““2 4“进口”“文本”““2 4“图像”“”“”2 1”分析“文本”“3 4”MATLAB”“”“”“”“”“3 1”图像3 1"videos" "" "" 3 1

    如果关键字包含多个单词,则字符串数组的第Th元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    属性将多字关键字转换为单个字符串,以提高可读性加入功能。

    如果> 1 tbl. size(tbl. keyword,2);关键字= strip(join(tbl.Keyword));结束资源描述
    台=12×3表关键字DocumentNumber得分  __________________________ ______________ _____ " MATLAB提供的工具MATLAB“1 2”“1 8”科学家和工程师“1 2”工程师“1 1”科学家“1 1”分析文本2 4“导入文本“2 4”图像“2 - 1”分析文本“3 4”MATLAB“3 1”图片“3 1”视频“3 1

    创建包含文本数据的标记化文档数组。

    textData = [MATLAB为科学家和工程师提供了工具。科学家和工程师使用MATLAB。”分析文本和图像。你可以导入文本和图像。”分析文本和图像。在MATLAB中分析文本、图像和视频。];文件= tokenizedDocument (textData);

    提取前两个关键词使用rakeKeywords函数,并设置“MaxNumKeywords”选项2

    台= rakeKeywords(文档,“MaxNumKeywords”,2)
    台=6×3表关键字DocumentNumber得分  __________________________________ ______________ _____ " MATLAB”“提供”“工具”1 8“MATLAB”“”“”1 2“文本分析”“”“”2 4“进口”“文本”““2 4“文本分析”“”“”3 4“MATLAB”“”“”3 1

    如果关键字包含多个单词,则字符串数组的第Th元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    属性将多字关键字转换为单个字符串,以提高可读性加入功能。

    如果> 1 tbl. size(tbl. keyword,2);关键字= strip(join(tbl.Keyword));结束资源描述
    台=6×3表关键字DocumentNumber Score _______________________ ___________________ "MATLAB提供的工具" 1 8 "MATLAB" 1 2 "分析文本" 2 4 "导入文本" 2 4 "分析文本" 3 4 "MATLAB" 3 1

    输入参数

    全部折叠

    输入文档,指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument数组中。

    名称-值对的观点

    指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

    例子:rakeKeywords(文档、“MaxNumKeywords”20)每个文档最多返回20个关键字。

    每个文档返回的关键字的最大数量,指定为逗号分隔对,由“MaxNumKeywords”一个正整数或

    如果MaxNumKeywords,则该函数返回所有标识的关键字。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    用于将文档分割成关键字的令牌,指定为由“分隔符”以及字符串数组、字符向量或字符向量的单元格数组。如果分隔符是字符向量,则它必须表示单个分隔符。

    默认的分隔符列表是一个标点字符列表。

    如果文档中出现了多个仅由合并分隔符分隔的候选关键字,则该函数将这些关键字和合并分隔符合并为一个关键字。

    要指定用于合并的分隔符,请使用“MergingDelimiters”选择。

    分隔符匹配不区分大小写。

    数据类型:字符|字符串|细胞

    分隔符也用于合并关键字,指定为逗号分隔的对,由“MergingDelimiters”以及字符串数组、字符向量或字符向量的单元格数组。如果MergingDelimiters是字符向量,则它必须表示单个分隔符。

    属性给出的停止词列表是合并分隔符的默认列表stopWords函数。

    如果文档中出现了多个仅由合并分隔符分隔的候选关键字,则该函数将这些关键字和合并分隔符合并为一个关键字。

    要指定不应用于合并的分隔符,请使用“分隔符”选择。

    分隔符匹配不区分大小写。

    数据类型:字符|字符串|细胞

    输出参数

    全部折叠

    提取的关键字和分数,返回为带有以下变量的表:

    • 关键字-提取关键字,指定为1-by-maxNgramLength字符串数组,maxNgramLength是最长关键字中的字数。

    • DocumentNumber—包含相应关键字的文档编号。

    • 分数—关键字评分。

    如果文档中出现了多个仅由合并分隔符分隔的候选关键字,则该函数将这些关键字和合并分隔符合并为一个关键字。

    如果关键字包含多个单词,则对应的字符串数组的第Th元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    有关更多信息,请参见关键词快速自动提取

    更多关于

    全部折叠

    语言的注意事项

    rakeKeywords函数只支持英语、日金宝app语、德语和韩语文本。

    rakeKeywords函数使用基于分隔符的方法提取关键字,以识别候选关键字。在默认情况下,该函数使用标点字符和由stopWords以输入文档的语言细节作为分隔符。

    属性指定适当的分隔符集“分隔符”“MergingDelimiters”选项。

    提示

    • 你可以尝试不同的关键字提取算法,看看什么最适合你的数据。由于RAKE关键字算法使用基于分隔符的方法来提取候选关键字,因此提取的关键字可能非常长。或者,您可以尝试使用TextRank算法提取关键字,该算法以单个令牌作为候选关键字开始,然后在适当时合并它们。要使用TextRank提取关键字,使用textrankKeywords函数。想要了解更多,请看使用TextRank从文本数据中提取关键词

    算法

    全部折叠

    关键词快速自动提取

    对于每个文档,rakeKeywords函数根据下面的步骤独立提取关键字[1]

    1. 确定候选关键词:

    2. 计算候选关键字的分数:

      • 创建一个无向、无权重的图,其中的节点与候选关键字中的单个令牌对应。

      • 在令牌在候选关键字(包括自共同出现)中共同出现的节点之间添加边,并根据包含该共同出现的候选关键字的数量加权。

      • 使用公式为每个标记打分度(令牌)/频率(令牌),在那里度(令牌)指定标记和的边数是多少频率(令牌)指定的令牌在文档中出现的次数。

      • 对于每个候选关键字,根据所包含标记的分数之和分配一个分数。

    3. 从候选人中提取热门关键词:

      • 如果同一对候选关键字有多个实例,被相同的单个合并分隔符分隔,则将候选关键字和分隔符合并为单个关键字,并对相应的分数求和。

      • 返回顶部k关键字,k是由“MaxNumKeywords”选择。

    语言细节

    tokenizedDocument对象包含有关标记的详细信息,包括语言细节。输入文档的语言细节决定了rakeKeywords.的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,请使用“语言”的名称-值对参数tokenizedDocument.要查看令牌详细信息,请使用tokenDetails函数。

    参考文献

    罗斯、斯图尔特、戴夫·恩格尔、尼克·克莱默和温迪·考利。“从单个文档中自动提取关键字。”文本挖掘:应用与理论1(2010): 1 - 20。

    介绍了R2020b