textrankScores

使用TextRank算法进行文档评分

全部折叠到页面中

语法

成绩= textrankScores(文档)

成绩= textrankScores(袋)

描述

例子

分数= textrankScores (文档)分数文档使用TextRank算法根据成对相似度值确定重要性。该函数分别使用BM25和PageRank算法计算相似度和重要度分数。

例子

分数= textrankScores (袋)用单词袋或n-gram袋模型编码的Scores文档袋。

例子

全部折叠

文件的重要性

打开生活的脚本

创建一个标记文档数组。

str = [那只敏捷的棕色狐狸跳过了那只懒狗那只敏捷的棕色狐狸跳过了那只懒狗那只懒狗坐在那里什么事也不干"其他动物坐在那里看着"];文件= tokenizedDocument (str)

8个token: the lazy dog sit there and did nothing 6个token: the other animals sit there watching .懒狗坐在那里什么也不做

计算TextRank分数。

成绩= textrankScores(文件);

在条形图中可视化分数。

图酒吧(分数)包含(“文档”) ylabel (“分数”)标题(“TextRank分数”)

图中包含一个轴。标题为TextRank Scores的轴包含一个类型为bar的对象。

使用单词袋模型的分数

打开生活的脚本

中的文本数据创建一个词袋模型sonnets.csv。

文件名=“sonnets.csv”;台= readtable(文件名,“TextType”,“字符串”);textData = tbl.Sonnet;文件= tokenizedDocument (textData);袋= bagOfWords(文档)

[1x3527字符串]NumWords: 3527 NumDocuments: 154

计算TextRank分数。

成绩= textrankScores(袋);

在条形图中可视化分数。

图酒吧(分数)包含(“文档”) ylabel (“分数”)标题(“TextRank分数”)

图中包含一个轴。标题为TextRank Scores的轴包含一个类型为bar的对象。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元数组

输入文档，指定为tokenizedDocument数组、单词的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素是一个单词。要指定多个文档，请使用tokenizedDocument数组中。

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

输入单词袋或n-g袋模型，指定为bagOfWords对象或一个bagOfNgrams对象。如果袋是一个bagOfNgrams对象，则函数将每个n-gram视为单个单词。

输出参数

全部折叠

`分数`——TextRank分数
向量

TextRank得分，返回为N1的向量,分数(我)对应的分数为我输入文件和N是输入文档的数量。

参考文献

[1] Mihalcea, Rada，和Paul Tarau。“Textrank:将秩序带入文本。”在自然语言处理中的经验方法2004年会议论文集, 404 - 411页。2004.

另请参阅

主题

使用注意进行序列到序列翻译

介绍了R2020a

文本分析工具箱文档

金宝app

开始与文本分析在MATLAB

立即下载

textrankScores

语法

描述

例子

文件的重要性

使用单词袋模型的分数

输入参数

文档- - - - - -输入文档tokenizedDocument数组|字串数组|字符向量的单元数组

袋- - - - - -输入模型bagOfWords对象|bagOfNgrams对象

输出参数

分数——TextRank分数向量

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

开始与文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元数组

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

`分数`——TextRank分数
向量