主要内容

textrankScores

使用TextRank算法进行文档评分

描述

例子

分数= textrankScores (文档)分数文档使用TextRank算法根据成对相似度值确定重要性。该函数分别使用BM25和PageRank算法计算相似度和重要度分数。

例子

分数= textrankScores ()用单词袋或n-gram袋模型编码的Scores文档

例子

全部折叠

创建一个标记文档数组。

str = [那只敏捷的棕色狐狸跳过了那只懒狗那只敏捷的棕色狐狸跳过了那只懒狗那只懒狗坐在那里什么事也不干"其他动物坐在那里看着"];文件= tokenizedDocument (str)
8个token: the lazy dog sit there and did nothing 6个token: the other animals sit there watching .懒狗坐在那里什么也不做

计算TextRank分数。

成绩= textrankScores(文件);

在条形图中可视化分数。

图酒吧(分数)包含(“文档”) ylabel (“分数”)标题(“TextRank分数”)

图中包含一个轴。标题为TextRank Scores的轴包含一个类型为bar的对象。

中的文本数据创建一个词袋模型sonnets.csv

文件名=“sonnets.csv”;台= readtable(文件名,“TextType”,“字符串”);textData = tbl.Sonnet;文件= tokenizedDocument (textData);袋= bagOfWords(文档)
[1x3527字符串]NumWords: 3527 NumDocuments: 154

计算TextRank分数。

成绩= textrankScores(袋);

在条形图中可视化分数。

图酒吧(分数)包含(“文档”) ylabel (“分数”)标题(“TextRank分数”)

图中包含一个轴。标题为TextRank Scores的轴包含一个类型为bar的对象。

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组、单词的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素是一个单词。要指定多个文档,请使用tokenizedDocument数组中。

输入单词袋或n-g袋模型,指定为bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams对象,则函数将每个n-gram视为单个单词。

输出参数

全部折叠

TextRank得分,返回为N1的向量,分数(我)对应的分数为输入文件和N是输入文档的数量。

参考文献

[1] Mihalcea, Rada,和Paul Tarau。“Textrank:将秩序带入文本。”在自然语言处理中的经验方法2004年会议论文集, 404 - 411页。2004.

介绍了R2020a