主要内容

textrankKeywords

使用TextRank提取关键字

    描述

    例子

    资源描述=textrankKeywords(文档使用TextRank提取关键词和各自的分数。该函数支持英语、日语、德语金宝app和韩语文本。对于其他语言,请尝试使用rakeKeywords功能相反。

    例子

    资源描述=textrankKeywords(文档名称、值使用一个或多个名称-值对参数指定其他选项。

    例子

    全部崩溃

    创建包含文本数据的标记化文档数组。

    textData = [“MATLAB为工程师提供了非常有用的工具。科学家在MATLAB中使用了许多有用的工具。”“MATLAB和Simu金宝applink具有许多功能。将MATLAB和Simulink用于工程工作流。”在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。];文档=标记化文档(textData);

    使用textrankKeywords函数。

    tbl=textrankeywords(文档)
    台=7×3表关键字DocumentNumber得分  _________________________________ ______________ ______ " 许多“有用的”“工具”1 5.2174“有用的”“工具”“1 3.8778“许多”“功能”““2 4.0815”文本”“”“”3 1”图片”“”“”3 1”MATLAB”“”“”“”“”“3 1”视频3 1

    如果关键字包含多个单词,则字符串数组的第个元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    属性将多字关键字转换为单个字符串,以提高可读性参加功能。

    如果尺寸(tbl.关键字,2)>1 tbl.关键字=条带(连接(tbl.关键字));结束资源描述
    台=7×3表关键词DocumentNumber Score\uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

    创建包含文本数据的标记化文档数组。

    textData = [“MATLAB为工程师提供了非常有用的工具。科学家们使用许多有用的MATLAB工具箱。”“MATLAB和Simu金宝applink具有许多功能。将MATLAB和Simulink用于工程工作流。”在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。];文档=标记化文档(textData);

    提取前两个关键词使用textrankKeywords函数和设置“MaxNumKeywords”选项2

    tbl=textrankeywords(文档、,“MaxNumKeywords”,2)
    台=5×3表关键字DocumentNumber得分  _____________________________________ ______________ ______ " 有用”“MATLAB”“工具箱”1 4.8695“有用”“”“”1 2.3612“许多”“功能”““2 4.0815”文本”“”“”“”“”“3 1”图像3 1

    如果关键字包含多个单词,则字符串数组的第个元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    属性将多字关键字转换为单个字符串,以提高可读性参加功能。

    如果尺寸(tbl.关键字,2)>1 tbl.关键字=条带(连接(tbl.关键字));结束资源描述
    台=5×3表关键字DocumentNumber得分  _________________________ ______________ ______ " 有用的MATLAB工具箱4.8695“1”有用“1 2.3612”许多特性“2 4.0815”文本“3 1”图片“3 1

    输入参数

    全部崩溃

    输入文档,指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument大堆

    名称-值参数

    指定可选的逗号分隔的对名称、值论据。的名字参数名和价值为对应值。的名字必须出现在引号内。您可以按任意顺序指定多个名称和值对参数,如下所示:Name1, Value1,…,的家

    例子:textrankKeywords(文档、“MaxNumKeywords”20)每个文档最多返回20个关键字。

    每个文档返回的关键字的最大数量,指定为逗号分隔对,由“MaxNumKeywords”和一个正整数或

    如果MaxNumKeywords,则该函数返回所有标识的关键字。

    数据类型:|双重的|int8|int16|int32|int64|uint8|uint16|uint32|uint64

    共现窗口的大小,指定为逗号分隔的对“窗口”和一个正整数或

    当窗口大小为2时,仅当两个候选关键字在文档中连续出现时,函数才会考虑它们之间的共现,则当两个候选关键字同时出现在同一文档中时,该函数将考虑它们之间的共现。

    增加窗口大小使功能能够找到更多关键字之间的共同出现,从而增加关键字的重要性得分。这可能会导致你找到更多相关的关键字,但代价可能是给不那么相关的关键字打高分。

    有关详细信息,请参阅TextRank关键字提取

    数据类型:|双重的|int8|int16|int32|int64|uint8|uint16|uint32|uint64

    用来提取候选关键字的词性标签,指定为逗号分隔对,由“说话的一部分”以及字符串数组、字符向量单元格数组或包含下列一个或多个类名的类别数组:

    • “形容词”——形容词

    • “adposition”——Adposition

    • “副词”——副词

    • “助动词”–助词

    • “坐标连词”–协调连接

    • “限定词”-限定词

    • “感叹词”——感叹词

    • “名词”–名词

    • “数字”——数字

    • “粒子”——粒子

    • “代词”-代词

    • “专有名词”(专有名词

    • “标点符号”(标点符号

    • “子命令连接”-从属共轭

    • “象征”–符号

    • “动词”——动词

    • “其他”–其他

    如果PartOfSpeech是一个字符向量,那么它必须对应于一个单独的词性标签。

    有关详细信息,请参阅TextRank关键字提取

    数据类型:烧焦|字符串|单间牢房|明确的

    输出参数

    全部崩溃

    提取的关键字和分数,返回为带有以下变量的表:

    • 关键词-提取关键字,指定为1-by-maxNgramLength字符串数组,其中maxNgramLength是最长关键字中的字数。

    • 文件编号—包含相应关键字的文档编号。

    • 分数–关键词得分。

    当多个关键字连续出现在相应文档中时,该函数将它们合并为单个关键字。

    如果关键字包含多个单词,则对应字符串数组的th元素对应于关键字的字。如果关键字的单词比最长关键字的单词少,则字符串数组的其余条目为空字符串""

    有关详细信息,请参阅TextRank关键字提取

    更多关于

    全部崩溃

    语言考虑

    textrankKeywords函数只支持英语、日金宝app语、德语和韩语文本。

    textrankKeywords函数通过基于词性标签识别候选关键字来提取关键字。该函数使用的词性标签addPartOfSpeechDetails只支持英语、日语、德语和韩语文金宝app本的函数。

    对于其他语言,请尝试使用rakeKeywords而是使用“分隔符”“MergingDelimiters”选项。

    提示

    • 您可以使用不同的关键字提取算法进行实验,看看哪些算法最适合您的数据。由于TextRank关键字算法使用基于词性标记的方法提取候选关键字,因此提取的关键字可能很短。或者,您可以尝试使用RAKE算法提取关键字,该算法提取分隔符之间出现的标记序列作为候选关键字。要使用RAKE提取关键字,请使用rakeKeywords函数。想要了解更多,请看使用RAKE从文本数据中提取关键字

    算法

    全部崩溃

    TextRank关键字提取

    对于每个文档,textrankKeywords函数根据以下步骤独立提取关键字:[1]

    1. 确定候选关键字:

    2. 计算每个考生的分数:

      • 创建一个无向、未加权的图,其中包含与候选关键字对应的节点。

      • 在标记窗口中出现候选关键字的节点之间添加边,其中窗口大小由“窗口”选择。

      • 使用PageRank算法计算每个节点的中心性,并根据候选关键字的数量权重得分。有关详细信息,请参阅中心性

    3. 从候选项中提取顶级关键字:

      • 根据考生的分数选择前三分之一的候选关键词。

      • 如果任何候选关键字连续出现在文档中,则将它们合并为单个关键字并对相应的分数求和。

      • 返回顶部k关键词,在哪里k是由“MaxNumKeywords”选择。

    语言细节

    tokenizedDocument对象包含有关令牌的详细信息,包括语言详细信息。输入文档的语言详细信息决定textrankKeywords.的tokenizedDocument函数,默认情况下,自动检测输入文本的语言。要手动指定语言细节,请使用“语言”的名称-值对参数tokenizedDocument. 要查看令牌详细信息,请使用tokenDetails函数。

    参考文献

    Mihalcea, Rada和Paul Tarau。“Textrank:将秩序带入文本。”在2004年自然语言处理经验方法会议论文集, 404 - 411页。2004.

    在R2020b中引入