textrankKeywords

使用TextRank提取关键字

折叠所有页面

语法

tbl=textrankeywords（文档）

台= textrankKeywords(文档名称、值)

描述

例子

资源描述=textrankKeywords(文档）使用TextRank提取关键词和各自的分数。该函数支持英语、日语、德语金宝app和韩语文本。对于其他语言，请尝试使用rakeKeywords功能相反。

例子

资源描述=textrankKeywords(文档，名称、值）使用一个或多个名称-值对参数指定其他选项。

例子

全部崩溃

使用TextRank提取关键词

打开生活的脚本

创建包含文本数据的标记化文档数组。

textData = [“MATLAB为工程师提供了非常有用的工具。科学家在MATLAB中使用了许多有用的工具。”“MATLAB和Simu金宝applink具有许多功能。将MATLAB和Simulink用于工程工作流。”在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。]；文档=标记化文档（textData）；

使用textrankKeywords函数。

tbl=textrankeywords（文档）

台=7×3表关键字DocumentNumber得分  _________________________________ ______________ ______ " 许多“有用的”“工具”1 5.2174“有用的”“工具”“1 3.8778“许多”“功能”““2 4.0815”文本”“”“”3 1”图片”“”“”3 1”MATLAB”“”“”“”“”“3 1”视频3 1

如果关键字包含多个单词，则我字符串数组的第个元素对应于我关键字的字。如果关键字的单词比最长关键字的单词少，则字符串数组的其余条目为空字符串＂＂．

属性将多字关键字转换为单个字符串，以提高可读性参加和带功能。

如果尺寸（tbl.关键字，2）>1 tbl.关键字=条带（连接（tbl.关键字））；结束资源描述

台=7×3表关键词DocumentNumber Score\uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

指定每个文档的最大关键字数量

打开生活的脚本

创建包含文本数据的标记化文档数组。

textData = [“MATLAB为工程师提供了非常有用的工具。科学家们使用许多有用的MATLAB工具箱。”“MATLAB和Simu金宝applink具有许多功能。将MATLAB和Simulink用于工程工作流。”在MATLAB中分析文本和图像。在MATLAB中分析文本、图像和视频。]；文档=标记化文档（textData）；

提取前两个关键词使用textrankKeywords函数和设置“MaxNumKeywords”选项2．

tbl=textrankeywords（文档、，“MaxNumKeywords”,2)

台=5×3表关键字DocumentNumber得分  _____________________________________ ______________ ______ " 有用”“MATLAB”“工具箱”1 4.8695“有用”“”“”1 2.3612“许多”“功能”““2 4.0815”文本”“”“”“”“”“3 1”图像3 1

属性将多字关键字转换为单个字符串，以提高可读性参加和带功能。

如果尺寸（tbl.关键字，2）>1 tbl.关键字=条带（连接（tbl.关键字））；结束资源描述

台=5×3表关键字DocumentNumber得分  _________________________ ______________ ______ " 有用的MATLAB工具箱4.8695“1”有用“1 2.3612”许多特性“2 4.0815”文本“3 1”图片“3 1

输入参数

全部崩溃

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

输入文档，指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。要指定多个文档，请使用tokenizedDocument大堆

名称-值参数

指定可选的逗号分隔的对名称、值论据。的名字参数名和价值为对应值。的名字必须出现在引号内。您可以按任意顺序指定多个名称和值对参数，如下所示：Name1, Value1,…,的家．

例子：textrankKeywords(文档、“MaxNumKeywords”20)每个文档最多返回20个关键字。

`MaxNumKeywords`- - - - - -每个文档返回的关键字的最大数量
`正`(默认)|正整数

每个文档返回的关键字的最大数量，指定为逗号分隔对，由“MaxNumKeywords”和一个正整数或正．

如果MaxNumKeywords是正，则该函数返回所有标识的关键字。

数据类型：单|双重的|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`窗口`- - - - - -同现窗口的大小
2(默认)|正整数|`正`

共现窗口的大小，指定为逗号分隔的对“窗口”和一个正整数或正．

当窗口大小为2时，仅当两个候选关键字在文档中连续出现时，函数才会考虑它们之间的共现正，则当两个候选关键字同时出现在同一文档中时，该函数将考虑它们之间的共现。

增加窗口大小使功能能够找到更多关键字之间的共同出现，从而增加关键字的重要性得分。这可能会导致你找到更多相关的关键字，但代价可能是给不那么相关的关键字打高分。

有关详细信息，请参阅TextRank关键字提取．

数据类型：单|双重的|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`PartOfSpeech`- - - - - -词性标记
`["名词”“专有名词”“形容词”)`(默认)|字符串数组|字符向量的单元格数组|特征向量|范畴数组

用来提取候选关键字的词性标签，指定为逗号分隔对，由“说话的一部分”以及字符串数组、字符向量单元格数组或包含下列一个或多个类名的类别数组:

“形容词”——形容词
“adposition”——Adposition
“副词”——副词
“助动词”–助词
“坐标连词”–协调连接
“限定词”-限定词
“感叹词”——感叹词
“名词”–名词
“数字”——数字
“粒子”——粒子
“代词”-代词
“专有名词”(专有名词
“标点符号”(标点符号
“子命令连接”-从属共轭
“象征”–符号
“动词”——动词
“其他”–其他

如果PartOfSpeech是一个字符向量，那么它必须对应于一个单独的词性标签。

有关详细信息，请参阅TextRank关键字提取．

数据类型：烧焦|字符串|单间牢房|明确的

输出参数

全部崩溃

`资源描述`-提取关键词和分数
桌子

提取的关键字和分数，返回为带有以下变量的表:

关键词-提取关键字，指定为1-by-maxNgramLength字符串数组，其中maxNgramLength是最长关键字中的字数。
文件编号—包含相应关键字的文档编号。
分数–关键词得分。

当多个关键字连续出现在相应文档中时，该函数将它们合并为单个关键字。

如果关键字包含多个单词，则我对应字符串数组的th元素对应于我关键字的字。如果关键字的单词比最长关键字的单词少，则字符串数组的其余条目为空字符串＂＂．

有关详细信息，请参阅TextRank关键字提取．

提示

您可以使用不同的关键字提取算法进行实验，看看哪些算法最适合您的数据。由于TextRank关键字算法使用基于词性标记的方法提取候选关键字，因此提取的关键字可能很短。或者，您可以尝试使用RAKE算法提取关键字，该算法提取分隔符之间出现的标记序列作为候选关键字。要使用RAKE提取关键字，请使用rakeKeywords函数。想要了解更多，请看使用RAKE从文本数据中提取关键字．

算法

全部崩溃

TextRank关键字提取

对于每个文档，textrankKeywords函数根据以下步骤独立提取关键字：［1］：

确定候选关键字：
- 属性指定的词性提取标记“说话的一部分”选择。
计算每个考生的分数:
- 创建一个无向、未加权的图，其中包含与候选关键字对应的节点。
- 在标记窗口中出现候选关键字的节点之间添加边，其中窗口大小由“窗口”选择。
- 使用PageRank算法计算每个节点的中心性，并根据候选关键字的数量权重得分。有关详细信息，请参阅中心性．
从候选项中提取顶级关键字：
- 根据考生的分数选择前三分之一的候选关键词。
- 如果任何候选关键字连续出现在文档中，则将它们合并为单个关键字并对相应的分数求和。
- 返回顶部k关键词，在哪里k是由“MaxNumKeywords”选择。

语言细节

tokenizedDocument对象包含有关令牌的详细信息，包括语言详细信息。输入文档的语言详细信息决定textrankKeywords．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。要手动指定语言细节，请使用“语言”的名称-值对参数tokenizedDocument. 要查看令牌详细信息，请使用tokenDetails函数。

参考文献

Mihalcea, Rada和Paul Tarau。“Textrank:将秩序带入文本。”在2004年自然语言处理经验方法会议论文集, 404 - 411页。2004.

另请参阅

tokenizedDocument|rakeKeywords|textrankScores|摘录摘要

主题

在R2020b中引入

textrankKeywords

语法

描述

例子

使用TextRank提取关键词

指定每个文档的最大关键字数量

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

名称-值参数

`MaxNumKeywords`- - - - - -每个文档返回的关键字的最大数量
`正`(默认)|正整数

`窗口`- - - - - -同现窗口的大小
2(默认)|正整数|`正`

`PartOfSpeech`- - - - - -词性标记
`["名词”“专有名词”“形容词”)`(默认)|字符串数组|字符向量的单元格数组|特征向量|范畴数组

输出参数

`资源描述`-提取关键词和分数
桌子

更多关于

语言考虑

提示

算法

TextRank关键字提取

语言细节

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

textrankKeywords

语法

描述

例子

使用TextRank提取关键词

指定每个文档的最大关键字数量

输入参数

文档- - - - - -输入文档tokenizedDocument数组|字串数组|字符向量的单元格数组

名称-值参数

MaxNumKeywords- - - - - -每个文档返回的关键字的最大数量正(默认)|正整数

窗口- - - - - -同现窗口的大小2(默认)|正整数|正

PartOfSpeech- - - - - -词性标记["名词”“专有名词”“形容词”)(默认)|字符串数组|字符向量的单元格数组|特征向量|范畴数组

输出参数

资源描述-提取关键词和分数桌子

更多关于

语言考虑

提示

算法

TextRank关键字提取

语言细节

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`MaxNumKeywords`- - - - - -每个文档返回的关键字的最大数量
`正`(默认)|正整数

`窗口`- - - - - -同现窗口的大小
2(默认)|正整数|`正`

`PartOfSpeech`- - - - - -词性标记
`["名词”“专有名词”“形容词”)`(默认)|字符串数组|字符向量的单元格数组|特征向量|范畴数组

`资源描述`-提取关键词和分数
桌子