主要内容

rakeKeywords

使用RAKE提取关键词

    描述

    例子

    tbl=rakeKeywords(文档使用快速自动关键词提取(RAKE)算法提取关键词和相应的分数。该函数支持英语、日语、德语和韩语文本。学习如何使用金宝apprakeKeywords有关其他语言,请参见语言考虑

    例子

    tbl=rakeKeywords(文档,名称、值使用一个或多个名称-值对参数指定其他选项。

    提示

    rakeKeywords函数,在默认情况下,使用停止词和标点字符提取关键字。的默认值“分隔符”“MergingDelimiters”选项中,不要从输入文本中删除停止字或标点字符。

    例子

    全部崩溃

    创建包含文本数据的标记化文档数组。

    textData = [“MATLAB为科学家和工程师提供工具。科学家和工程师使用MATLAB。”分析文本和图像。你可以导入文本和图像。”分析文本和图像。在MATLAB中分析文本、图像和视频。];文档=标记化文档(textData);

    使用rakeKeywords函数。

    tbl=rakeKeywords(文件)
    台=12×3表关键字DocumentNumber得分  _________________________________________ ______________ _____ " MATLAB”“提供”“工具”1 8“MATLAB”“”“”1 2“科学家”“和”“工程师”1 2“工程师”“”“1 1”科学家”“”“1 1”分析“文本”““2 4“进口”“文本”““2 4“图像”“”“”2 1”分析“文本”“3 4”MATLAB”“”“”“”“”“3 1”图像3 1"videos" "" "" 3 1

    如果关键字包含多个单词,则字符串数组的第个元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    属性将多字关键字转换为单个字符串,以提高可读性参加功能。

    如果尺寸(tbl.关键字,2)>1 tbl.关键字=条带(连接(tbl.关键字));结束tbl
    台=12×3表关键字DocumentNumber得分  __________________________ ______________ _____ " MATLAB提供的工具MATLAB“1 2”“1 8”科学家和工程师“1 2”工程师“1 1”科学家“1 1”分析文本2 4“导入文本“2 4”图像“2 - 1”分析文本“3 4”MATLAB“3 1”图片“3 1”视频“3 1

    创建包含文本数据的标记化文档数组。

    textData = [“MATLAB为科学家和工程师提供工具。科学家和工程师使用MATLAB。”分析文本和图像。你可以导入文本和图像。”分析文本和图像。在MATLAB中分析文本、图像和视频。];文档=标记化文档(textData);

    提取前两个关键词使用rakeKeywords函数和设置“MaxNumKeywords”选项2

    tbl=rakeKeywords(文件、,“MaxNumKeywords”,2)
    台=6×3表关键字DocumentNumber Score_uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu提供工具“1 8”MATLAB”“12”“分析”“文本”“2”“2”“4”“导入文本”“2”“4

    如果关键字包含多个单词,则字符串数组的第个元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    属性将多字关键字转换为单个字符串,以提高可读性参加功能。

    如果尺寸(tbl.关键字,2)>1 tbl.关键字=条带(连接(tbl.关键字));结束tbl
    台=6×3表关键字DocumentNumber Score _______________________ ___________________ "MATLAB提供的工具" 1 8 "MATLAB" 1 2 "分析文本" 2 4 "导入文本" 2 4 "分析文本" 3 4 "MATLAB" 3 1

    输入参数

    全部崩溃

    输入文档,指定为标记化文档数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个标记化文档数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词标记化文档大堆

    名称-值参数

    指定可选的逗号分隔的对名称、值论据。的名字参数名和价值为对应值。的名字必须出现在引号内。您可以按任意顺序指定多个名称和值对参数,如下所示:名称1,值1,…,名称,值

    例子:rakeKeywords(文档,'MaxNumKeywords',20)每个文档最多返回20个关键字。

    每个文档返回的关键字的最大数量,指定为逗号分隔对,由“MaxNumKeywords”和一个正整数或Inf

    如果MaxNumKeywordsInf,则该函数返回所有标识的关键字。

    数据类型:|双重的|int8|int16|int32|int64|uint8|uint16|uint32|uint64

    用于将文档分割成关键字的令牌,指定为由“分隔符”以及字符串数组、字符向量或字符向量的单元格数组。如果分隔符是字符向量,则它必须表示单个分隔符。

    默认的分隔符列表是标点符号列表。

    如果文档中出现了多个仅由合并分隔符分隔的候选关键字,则该函数将这些关键字和合并分隔符合并为一个关键字。

    要指定用于合并的分隔符,请使用“MergingDelimiters”选择。

    分隔符匹配不区分大小写。

    数据类型:烧焦|字符串|单间牢房

    分隔符也用于合并关键字,指定为逗号分隔的对,由“MergingDelimiters”以及字符串数组、字符向量或字符向量的单元格数组。如果分隔符是字符向量,则它必须表示单个分隔符。

    属性给出的停止词列表是合并分隔符的默认列表停止语函数。

    如果文档中出现了多个仅由合并分隔符分隔的候选关键字,则该函数将这些关键字和合并分隔符合并为一个关键字。

    要指定不应用于合并的分隔符,请使用“分隔符”选择。

    分隔符匹配不区分大小写。

    数据类型:烧焦|字符串|单间牢房

    输出参数

    全部崩溃

    提取的关键字和分数,返回为带有以下变量的表:

    • 关键词-提取关键字,指定为1-by-maxNgramLength字符串数组,其中maxNgramLength是最长关键字中的字数。

    • 文件编号—包含相应关键字的文档编号。

    • 分数–关键词得分。

    如果文档中出现了多个仅由合并分隔符分隔的候选关键字,则该函数将这些关键字和合并分隔符合并为一个关键字。

    如果关键字包含多个单词,则对应字符串数组的th元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    有关详细信息,请参阅快速自动关键词提取

    更多关于

    全部崩溃

    语言考虑

    rakeKeywords函数只支持英语、日金宝app语、德语和韩语文本。

    rakeKeywords函数使用基于分隔符的方法提取关键字以识别候选关键字。默认情况下,函数使用标点符号和停止语以输入文档的语言细节作为分隔符。

    属性指定适当的分隔符集“分隔符”“MergingDelimiters”选项。

    提示

    • 您可以使用不同的关键字提取算法进行实验,看看哪些算法最适合您的数据。因为RAKE关键字算法使用基于分隔符的方法来提取候选关键字,所以提取的关键字可能非常长。或者,您可以尝试使用TextRank算法提取关键字,该算法以单个标记作为候选关键字开始,然后在适当时合并它们。要使用TextRank提取关键字,请使用textrankKeywords函数。想要了解更多,请看使用TextRank从文本数据中提取关键字

    算法

    全部崩溃

    快速自动关键词提取

    对于每个文档,rakeKeywords函数根据以下步骤独立提取关键字:[1]

    1. 确定候选关键字:

    2. 计算候选关键字的分数:

      • 创建一个无向、未加权的图,其中的节点对应于候选关键字中的各个标记。

      • 在令牌在候选关键字(包括自共同出现)中共同出现的节点之间添加边,并根据包含该共同出现的候选关键字的数量加权。

      • 使用公式为每个标记打分度(令牌)/频率(令牌)哪里度(代币)是指定标记的边数,并且频率(令牌)指定标记在文档中出现的次数。

      • 对于每个候选关键字,根据所包含标记的分数之和分配一个分数。

    3. 从候选项中提取顶级关键字:

      • 如果同一对候选关键字的多个实例由同一个合并分隔符分隔,则将候选关键字和分隔符合并为单个关键字,并将相应的分数相加。

      • 返回顶部k关键词,在哪里k是由“MaxNumKeywords”选择。

    语言细节

    标记化文档对象包含有关令牌的详细信息,包括语言详细信息。输入文档的语言详细信息决定rakeKeywords这个标记化文档函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,请使用“语言”的名称-值对参数标记化文档。若要查看令牌详细信息,请使用tokenDetails函数。

    参考文献

    罗斯、斯图尔特、戴夫·恩格尔、尼克·克莱默和温迪·考利。“从单个文档中自动提取关键字。”文本挖掘:应用与理论1 (2010): 1-20.

    在R2020b中引入