textrankScores

文档评分与TextRank算法

折叠所有页面

语法

成绩= textrankScores(文档)

成绩= textrankScores(袋)

描述

例子

分数= textrankScores (文档)分数文档利用TextRank算法根据两两相似度值确定重要性。为了计算相似度和重要性分数，该函数分别使用BM25和PageRank算法。

例子

分数= textrankScores (袋)对由bag-of-words或bag-of-n-grams模型编码的文档进行评分袋．

例子

全部折叠

文件的重要性

打开生活的脚本

创建一个标记化文档数组。

str = ["那只敏捷的棕色狐狸跳过了那只懒狗""快速的棕色狐狸跳过了懒狗"这只懒狗坐在那里什么也不做。“其他动物坐在那里观看”];文件= tokenizedDocument (str)

译文:这只敏捷的棕色狐狸跳过了那只懒狗。译文:懒狗坐在那里什么也不做，其他的动物坐在那里观看

计算TextRank分数。

成绩= textrankScores(文件);

用条形图将分数形象化。

图酒吧(分数)包含(“文档”) ylabel (“分数”)标题(“TextRank分数”)

图中包含一个轴对象。标题为TextRank Scores的axis对象包含一个类型为bar的对象。

使用词汇袋模型得分

打开生活的脚本

从文本数据中创建一个单词袋模型sonnets.csv．

文件名=“sonnets.csv”；台= readtable(文件名,“TextType”，“字符串”）;textData = tbl.Sonnet;文件= tokenizedDocument (textData);袋= bagOfWords(文档)

单词:["From" " fairrest " "creatures" "we"…NumWords: 3527 NumDocuments: 154

计算TextRank分数。

成绩= textrankScores(袋);

用条形图将分数形象化。

图酒吧(分数)包含(“文档”) ylabel (“分数”)标题(“TextRank分数”)

图中包含一个轴对象。标题为TextRank Scores的axis对象包含一个类型为bar的对象。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

输入文档，指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。要指定多个文档，请使用tokenizedDocument数组中。

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

输入bag-of-words或bag-of-n-grams模型，指定为bagOfWords对象或一个bagOfNgrams对象。如果袋是一个bagOfNgrams对象，则该函数将每个n-gram视为单个单词。

输出参数

全部折叠

`分数`——TextRank分数
向量

TextRank分数，返回为N1的向量,分数(我)对应的是我输入文件和N是输入文档的数量。

参考文献

Mihalcea, Rada和Paul Tarau。“Textrank:将秩序带入文本。”在2004年自然语言处理经验方法会议论文集, 404 - 411页。2004.

另请参阅

主题

使用注意的顺序翻译

介绍了R2020a

textrankScores

语法

描述

例子

文件的重要性

使用词汇袋模型得分

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

输出参数

`分数`——TextRank分数
向量

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

textrankScores

语法

描述

例子

文件的重要性

使用词汇袋模型得分

输入参数

文档- - - - - -输入文档tokenizedDocument数组|字串数组|字符向量的单元格数组

袋- - - - - -输入模型bagOfWords对象|bagOfNgrams对象

输出参数

分数——TextRank分数向量

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

`分数`——TextRank分数
向量