主要内容

lexrankScores

文档得分与LexRank算法

描述

例子

分数= lexrankScores (文档)分数据成对相似性值指定的文档的重要性使用LexRank算法。函数使用余弦相似性,计算使用网页排名算法的重要性。

例子

分数= lexrankScores ()分数bag-of-words或bag-of-n-grams模型编码的文件。

例子

全部折叠

创建一个数组的标记化的文档。

str = [“那只敏捷的棕色狐狸跳过了懒惰的狗”“快”的棕色狐狸跳过了懒惰的狗“懒惰的狗坐在那里,什么也没做”“其他动物坐在那里看”];文件= tokenizedDocument (str)
文件= 4 x1 tokenizedDocument: 9令牌:那只敏捷的棕色狐狸跳过了懒惰的狗9令牌:快速的棕色狐狸跳过了懒惰的狗8令牌:懒惰的狗坐在那里,没有6令牌:其他动物坐在那里看

计算他们的LexRank成绩。

成绩= lexrankScores(文件);

想象一个条形图的分数。

图酒吧(分数)包含(“文档”)ylabel (“分数”)标题(“LexRank分数”)

图包含一个坐标轴对象。坐标轴对象得分LexRank标题包含一个对象类型的酒吧。

创建一个bag-of-words模型的文本数据sonnets.csv

文件名=“sonnets.csv”;台= readtable(文件名,“TextType”,“字符串”);textData = tbl.Sonnet;文件= tokenizedDocument (textData);袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[154 x3527双]词汇:“从”“公平”“生物”“我们”…]NumWords: 3527 NumDocuments: 154

计算LexRank分数为每个十四行诗。

成绩= lexrankScores(袋);

想象一个条形图的分数。

图酒吧(分数)包含(“文档”)ylabel (“分数”)标题(“LexRank分数”)

图包含一个坐标轴对象。坐标轴对象得分LexRank标题包含一个对象类型的酒吧。

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组,字符串数组的话,或一个细胞的特征向量。如果文档不是一个tokenizedDocument数组,那么它必须是一个行向量代表一个文档,其中每个元素是一个词。指定多个文档,使用tokenizedDocument数组中。

输入bag-of-words或bag-of-n-grams模型,指定为一个bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams函数对象,然后将每个语法视为一个字。

输出参数

全部折叠

LexRank分数,作为一个返回N1的向量,分数(我)对应的分数输入文档,N输入文档的数量。

引用

[1]Erkan、枪和Dragomir r . Radev。“Lexrank:基于词汇中心突出的文字总结”。《人工智能研究22(2004):457 - 479。

版本历史

介绍了R2020a