主要内容

textrankKeywords

提取关键字使用TextRank

    描述

    例子

    资源描述= textrankKeywords (文档)使用TextRank提取关键词和各自的分数。函数支持英语、日语、德语,金宝app和韩国的文本。为其他语言,尝试使用rakeKeywords函数来代替。

    例子

    资源描述= textrankKeywords (文档,名称,值)使用一个或多个指定附加选项名称-值对参数。

    例子

    全部折叠

    创建一个数组包含文本数据的标记化的文档。

    textData = [“MATLAB为工程师提供了非常有用的工具。科学家在MATLAB中使用许多有用的工具。”“MATLAB和Simu金宝applink有许多功能。使用MATLAB和Simuli金宝appnk工程工作流。””在MATLAB分析文本和图像。MATLAB分析文本、图像和视频。”];文件= tokenizedDocument (textData);

    提取关键字使用textrankKeywords函数。

    台= textrankKeywords(文档)
    台=7×3表关键词DocumentNumber得分______ _________________________________ * * *“很多”“有用”“工具”1 5.2174 3.8778“有用的”“工具”“1”许多“4.0815“文本”“功能”“2”“”“3 1“图像”“”“3 1”MATLAB“”“”“3 1“视频”“”“3 1

    如果关键字包含多个词,那么字符串数组对应的元素的关键字。如果关键字少字最长的关键字,然后剩下的字符串数组的条目是空字符串”“

    为了可读性,将多词关键字转换为一个字符串使用加入功能。

    如果大小(tbl.Keyword 2) > 1台。关键字= strip(join(tbl.Keyword));结束资源描述
    台=7×3表关键字______ DocumentNumber得分___________________ * * *“很多有用的工具”5.2174“有用的工具”1 4.0815 3.8778“许多功能”2“文本”3 1“图像”3 1“MATLAB”3 1“视频”3 1

    创建一个数组包含文本数据的标记化的文档。

    textData = [“MATLAB为工程师提供了非常有用的工具。科学家们用许多有用的MATLAB工具箱”。“MATLAB和Simu金宝applink有许多功能。使用MATLAB和Simuli金宝appnk工程工作流。””在MATLAB分析文本和图像。MATLAB分析文本、图像和视频。”];文件= tokenizedDocument (textData);

    提取前两名关键字使用textrankKeywords功能和设置“MaxNumKeywords”选项2

    台= textrankKeywords(文档,“MaxNumKeywords”,2)
    台=5×3表关键字______ DocumentNumber得分_____________________________________ * * *“有用”“MATLAB”“工具箱”1 4.8695“有用”“1”、“2.3612”许多“4.0815“文本”“功能”“2”“”“3 1“图像”“”“3 1

    如果关键字包含多个词,那么字符串数组对应的元素的关键字。如果关键字少字最长的关键字,然后剩下的字符串数组的条目是空字符串”“

    为了可读性,将多词关键字转换为一个字符串使用加入功能。

    如果大小(tbl.Keyword 2) > 1台。关键字= strip(join(tbl.Keyword));结束资源描述
    台=5×3表关键字______ DocumentNumber得分_________________________ * * *“有用的MATLAB工具箱”4.8695“有用”1 4.0815 2.3612“许多功能”2“文本”3 1“图像”3 1

    输入参数

    全部折叠

    输入文件,指定为一个tokenizedDocument数组,字符串数组的话,或一个细胞的特征向量。如果文档不是一个tokenizedDocument数组,那么它必须是一个行向量代表一个文档,其中每个元素是一个词。指定多个文档,使用tokenizedDocument数组中。

    名称-值参数

    指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

    R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

    例子:textrankKeywords(文档、“MaxNumKeywords”20)返回最多20每个文档的关键字。

    最大数量的关键字返回每个文档,指定为逗号分隔组成的“MaxNumKeywords”和一个正整数

    如果MaxNumKeywords,那么函数将返回所有确定关键词。

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    同现的大小窗口中,指定为一双的逗号分隔组成的“窗口”和一个正整数

    当窗口大小是2,函数考虑两个候选关键字之间的同现只有当他们连续出现在一个文档。当窗口大小,那么函数考虑两个候选关键字之间的同现当他们都出现在同一个文档。

    增加窗口大小使函数来找到更多的关键词,增加关键字之间的共生重要性分数。这可能导致找到更多相关关键词的代价可能over-scoring不相关的关键词。

    有关更多信息,请参见TextRank关键字提取

    数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

    词性标记用于提取候选关键字,指定为逗号分隔组成的“PartOfSpeech”细胞和一个字符串数组,数组的特征向量,或直言数组包含一个或多个以下类名称:

    • “形容词”——形容词

    • “adposition”——Adposition

    • “副词”——副词

    • “助动词”——助动词

    • “coord-conjunction”——并列连接词

    • “限定词”——决定因素

    • “感叹词”——感叹词

    • “名词”- - - - - -名词

    • “数字”——数字

    • “粒子”——粒子

    • “代词”——代词

    • “专有名词”(专有名词

    • “标点符号”(标点符号

    • “subord-conjunction”- - - - - -从属conjucntion

    • “象征”——象征

    • “动词”——动词

    • “其他”——其他

    如果PartOfSpeech是一个特征向量,那么它必须对应一个词性标记。

    有关更多信息,请参见TextRank关键字提取

    数据类型:字符|字符串|细胞|分类

    输出参数

    全部折叠

    提取关键词和分数,作为表返回以下变量:

    • 关键字——指定为1,提取关键字maxNgramLength字符串数组,maxNgramLength在最长的字的字数。

    • DocumentNumber——文档包含相应的关键字的数量。

    • 分数-得分的关键字。

    多个关键字功能合并到一个关键词时连续出现在相应的文档。

    如果关键字包含多个词,那么th元素相应的字符串数组对应的关键字。如果关键字少字最长的关键字,然后剩下的字符串数组的条目是空字符串”“

    有关更多信息,请参见TextRank关键字提取

    更多关于

    全部折叠

    语言的注意事项

    textrankKeywords函数支持英语、日语金宝app、德语,和韩国的文本。

    textrankKeywords函数提取关键词识别候选关键字基于词性标记。的函数使用词性标记addPartOfSpeechDetails功能,支持英语、日语、德语,和金宝app韩国的文本。

    为其他语言,尝试使用rakeKeywords相反,并指定一组适当的分隔符使用“分隔符”“MergingDelimiters”选项。

    提示

    • 你可以尝试不同的关键字提取算法与数据看看效果最好。因为TextRank关键词算法使用词性的基于标记的方法来提取候选关键字,提取的关键词可以短。或者,你可以尝试使用RAKE算法提取关键词中提取序列分隔符之间的令牌出现候选关键字。使用RAKE提取关键字,使用rakeKeywords函数。欲了解更多,请看从文本数据中提取关键字使用耙

    算法

    全部折叠

    TextRank关键字提取

    对于每个文件,textrankKeywords函数提取关键字基于独立使用以下步骤[1]:

    1. 确定候选关键词:

    2. 计算分数为每个候选人:

      • 创建一个无向未加权图,节点对应于候选关键字。

      • 添加节点之间边缘候选关键字出现在一个窗口的令牌,在窗口大小的“窗口”选择。

      • 计算每个节点的中心使用PageRank算法和重量分数根据候选关键字的数量。有关更多信息,请参见中心

    3. 从候选人中提取关键词:

      • 选择候选关键字的前三名根据他们的分数。

      • 如果任何候选关键字出现连续在一个文档,然后将它们合并为一个关键字,和对应的分数。

      • 返回顶部k关键字,k给出的“MaxNumKeywords”选择。

    语言细节

    tokenizedDocument对象包含令牌的详细信息包括语言细节。语言输入文档的细节决定的行为textrankKeywords。的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,使用“语言”名称-值对的观点tokenizedDocument。查看标记的细节,使用tokenDetails函数。

    引用

    [1]Mihalcea Rada,保罗Tarau。“Textrank:秩序文本”。In学报2004年大会在自然语言处理的经验方法,404 - 411页。2004年。

    版本历史

    介绍了R2020b