主要内容

使用TextRank从文本数据中提取关键字

这个例子展示了使用TextRank从文本数据中提取关键字。

TextRank关键字提取算法提取关键字使用词性的基于标记的方法来识别候选关键字和分数由使用词共生滑动窗口。关键字可以包含多个令牌。此外,TextRank关键词提取算法也合并时关键词出现连续在一个文档中。

提取关键字

创建一个数组包含文本数据的标记化的文档。

textData = [“MATLAB为工程师提供了非常有用的工具。科学家们用许多有用的MATLAB工具箱”。“MATLAB和Simu金宝applink有许多功能。MATLAB和Simu金宝applink便于发展模式。”“你可以轻松地在MATLAB中导入数据。特别是,您可以很容易地导入文本数据。”];文件= tokenizedDocument (textData);

提取关键字使用textrankKeywords函数。

台= textrankKeywords(文档)
台=6×3表关键词DocumentNumber得分______ _____________________________________ * * *“有用”“MATLAB”“工具箱”1 4.8695“有用”“1”、“2.3612”MATLAB“”“”“1 1.6212 4.6152“很多”“功能”“2“文本”“数据”“3 3.4781“数据”“1.7391”“3

如果关键字包含多个词,那么字符串数组对应的元素的关键字。如果关键字少字最长的关键字,然后剩下的字符串数组的条目是空字符串”“

为了可读性,将多词关键字转换为一个字符串使用加入功能。

如果大小(tbl.Keyword 2) > 1台。关键词=地带(加入(tbl.Keyword));结束头(台)
关键字______ DocumentNumber得分_________________________ * * *“有用的MATLAB工具箱”4.8695“有用”1“MATLAB”1 1.6212 2.3612 4.6152“许多功能”2“文本数据”3 1.7391 3.4781“数据”3

指定最大数量的每个文档的关键字

textrankKeywords函数,默认情况下,返回所有确定的关键词。要减少关键词的数量,可以使用“MaxNumKeywords”选择。

提取前两位为每个文档通过设置关键词“MaxNumKeywords”选项2。

台= textrankKeywords(文档,“MaxNumKeywords”,2)
台=5×3表关键词DocumentNumber得分______ _____________________________________ * * *“有用”“MATLAB”“工具箱”1 4.8695“有用”“2.3612”“1“很多”“功能”“2 4.6152“文本”“数据”“3 3.4781“数据”“1.7391”“3

指定词性标记

注意,在上面的关键词提取中,函数不考虑“进口”这个词作为关键词。这是因为TextRank关键词提取算法,在默认情况下,使用令牌与词性标记“名词”、“专有名词”和“形容词”候选关键字。因为这个词“进口”是一个动词,该算法没有考虑这是一个候选关键字。同样,该算法没有考虑副词“轻易”作为候选关键字。

指定哪个词性标记用于识别候选关键字,使用“PartOfSpeech”选择。

从相同的文本中提取关键字,也指定指定词性标记“副词”“动词”

newTags = [“副词”“动词”];标签= [“名词”“专有名词”“形容词”newTags];台= textrankKeywords(文档,“PartOfSpeech”、标签)
台=7×3表关键词DocumentNumber得分______ ____________________________________________ * * *“使用”“很多”“有用”“MATLAB”1 5.8839“有用”“”“”“1 2.0169”MATLAB“”“”“”“1 1.5478“模型”“”“多”“2 4.5058“模型”“”“”“2 1.5161“进口”“文本”“数据”“金宝app3 4.7921“进口”“数据”“3.4195”“3

注意,函数把令牌“进口”作为候选关键字合并成多词关键词“导入数据”和“导入文本数据”。

指定窗口大小

注意,在上面的关键词提取中,函数不提取副词“轻易”作为关键字。这是因为这些词在文本中邻近的其他候选关键字。

TextRank关键字提取算法的分数候选关键字使用滑动窗口内成对的共生。增加窗口大小,使用“窗口”选择。增加窗口大小使函数来找到更多的关键词,增加关键字之间的共生重要性分数。这可能导致找到更多相关关键词的代价可能over-scoring不相关的关键词。

从相同的文本中提取关键字,也指定指定一个窗口大小的3。

台= textrankKeywords(文档,“PartOfSpeech”、标签、“窗口”3)
台=8×3表关键词DocumentNumber得分______ ____________________________________________ * * *“很多”“有用”“MATLAB”“1 4.2185“真的”“有用”“2.8851”“1“MATLAB”“”“”“1 1.3154“模型”“”“”“2 1.4526”发展“”“”“”“2 1.0912“功能”“”“”“2 1.0794“轻金宝app松”“进口”“文本”5.2989“数据”3“轻松”“进口”“数据”“3 4.0842

注意,函数把令牌“轻易”作为关键字和合并到多词关键词“轻松导入文本数据”和“轻松导入数据”。

了解更多关于TextRank关键词提取算法,明白了TextRank关键字提取

选择

你可以尝试不同的关键字提取算法与数据看看效果最好。因为TextRank关键词算法使用词性的基于标记的方法来提取候选关键字,提取的关键词可以短。或者,你可以尝试使用RAKE算法提取关键词中提取序列分隔符之间的令牌出现候选关键字。使用RAKE提取关键字,使用rakeKeywords函数。欲了解更多,请看从文本数据中提取关键字使用耙

引用

[1]Mihalcea Rada,保罗Tarau。“Textrank:秩序文本”。In学报2004年大会在自然语言处理的经验方法,404 - 411页。2004年。

另请参阅

|||

相关的话题