主要内容

lexrankScores

使用LexRank算法对文档进行评分

描述

例子

得分= lexrankScores (文档使用LexRank算法根据两两相似度值对指定文档的重要性进行评分。该函数使用余弦相似度,并使用PageRank算法计算重要性。

例子

得分= lexrankScores (对由bag-of-words或bag-of-n-grams模型编码的文档进行评分。

例子

全部折叠

创建一个标记化文档数组。

str = ["那只敏捷的棕色狐狸跳过了那只懒狗""快速的棕色狐狸跳过了懒狗"这只懒狗坐在那里什么也不做。“其他动物坐在那里观看”];文件= tokenizedDocument (str)
译文:这只敏捷的棕色狐狸跳过了那只懒狗。译文:懒狗坐在那里什么也不做,其他的动物坐在那里观看

计算他们的LexRank分数。

成绩= lexrankScores(文件);

用条形图将分数形象化。

图酒吧(分数)包含(“文档”)ylabel(“分数”)标题(“LexRank分数”

图中包含一个轴对象。标题为LexRank Scores的axes对象包含一个类型为bar的对象。

从文本数据中创建一个单词袋模型Sonnets.csv.

文件名=“sonnets.csv”;台= readtable(文件名,“TextType”“字符串”);textdata = tbl.sonnet;文档= tokenizeddocument(textdata);BAG = BAGOFWORDS(文件)
单词:["From" " fairrest " "creatures" "we"…NumWords: 3527 NumDocuments: 154

计算每首十四行诗的LexRank分数。

成绩= lexrankScores(袋);

用条形图将分数形象化。

图酒吧(分数)包含(“文档”)ylabel(“分数”)标题(“LexRank分数”

图中包含一个轴对象。标题为LexRank Scores的axes对象包含一个类型为bar的对象。

输入参数

全部折叠

输入文档,指定为令人畏缩的鳕文数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个令人畏缩的鳕文数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用令人畏缩的鳕文数组中。

输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords对象或A.bagOfNgrams对象。如果是一个bagOfNgrams对象,则该函数将每个n-gram视为单个单词。

输出参数

全部折叠

LexRank分数,返回为aN1的向量,分数(i)对应于分数输入文件和N是输入文档的数量。

参考

[1] Erkan, Günes, Dragomir R. Radev。基于图的词汇中心性在文本摘要中的突出性。人工智能研究杂志(2004): 457 - 479。

介绍了R2020a