主要内容

textrankScores

文档得分与TextRank算法

自从R2020a

描述

例子

分数= textrankScores (文档)分数文档为根据重要性成对相似性值使用TextRank算法。分数,计算相似性和重要性函数使用BM25和PageRank算法,分别。

例子

分数= textrankScores ()分数bag-of-words或bag-of-n-grams模型编码的文件

例子

全部折叠

创建一个数组的标记化的文档。

str = [“那只敏捷的棕色狐狸跳过了懒惰的狗”“快”的棕色狐狸跳过了懒惰的狗“懒惰的狗坐在那里,什么也没做”“其他动物坐在那里看”];文件= tokenizedDocument (str)
文件= 4 x1 tokenizedDocument: 9令牌:那只敏捷的棕色狐狸跳过了懒惰的狗9令牌:快速的棕色狐狸跳过了懒惰的狗8令牌:懒惰的狗坐在那里,没有6令牌:其他动物坐在那里看

计算TextRank分数。

成绩= textrankScores(文件);

想象一个条形图的分数。

图酒吧(分数)包含(“文档”)ylabel (“分数”)标题(“TextRank分数”)

图包含一个坐标轴对象。坐标轴对象与标题TextRank分数,包含文档,ylabel得分包含一个对象类型的酒吧。

创建一个bag-of-words模型的文本数据sonnets.csv

文件名=“sonnets.csv”;台= readtable(文件名,“TextType”,“字符串”);textData = tbl.Sonnet;文件= tokenizedDocument (textData);袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[154 x3527双]词汇:“从”“公平”“生物”“我们”“希望”“增长””、““““从而”“美”“玫瑰”“可能”“从不”“死”“但是”“”“”“成熟”“应该”“通过”“时间”……]NumWords: 3527 NumDocuments: 154

计算TextRank分数。

成绩= textrankScores(袋);

想象一个条形图的分数。

图酒吧(分数)包含(“文档”)ylabel (“分数”)标题(“TextRank分数”)

图包含一个坐标轴对象。坐标轴对象与标题TextRank分数,包含文档,ylabel得分包含一个对象类型的酒吧。

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组,字符串数组的话,或一个细胞的特征向量。如果文档不是一个tokenizedDocument数组,那么它必须是一个行向量代表一个文档,其中每个元素是一个词。指定多个文档,使用tokenizedDocument数组中。

输入bag-of-words或bag-of-n-grams模型,指定为一个bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams函数对象,然后将每个语法视为一个字。

输出参数

全部折叠

TextRank分数,作为一个返回N1的向量,分数(我)对应的分数输入文档,N输入文档的数量。

引用

[1]Mihalcea Rada,保罗Tarau。“Textrank:秩序文本”。In学报2004年大会在自然语言处理的经验方法,404 - 411页。2004年。

版本历史

介绍了R2020a