mmrScores

基于最大边际相关性(MMR)算法的文档评分

折叠所有页面

语法

成绩= mmrScores(文档、查询)

成绩= mmrScores(袋、查询)

成绩= mmrScores (＿＿＿λ)

描述

例子

分数= mmrScores (文档，查询）分数文档根据它们与a的相关性查询使用MMR算法避免冗余。的分数分数(i, j)MMR评分是多少文档(我)相对于查询(j)．

分数= mmrScores (袋，查询）对由bag-of-words或bag-of-n-grams模型编码的文档进行评分袋相对于查询．的分数分数(i, j)MMR评分是多少我th文档袋相对于查询(j)．

分数= mmrScores (＿＿＿，λ）还指定了相关性和冗余之间的权衡。

例子

全部折叠

关联查询

打开生活的脚本

创建一个输入文档数组。

str = ["那只敏捷的棕色狐狸跳过了那只懒狗""快狐狸跳过了懒狗""狗坐在那里什么也不做"“其他动物坐在那里观看”];文件= tokenizedDocument (str)

这只灵巧的棕色狐狸跳过了那只懒狗。这只灵巧的狐狸跳过了那只懒狗

创建一个查询文档数组。

str = ["一只棕色狐狸跳过了那只懒狗""另一只狐狸跳过了那只狗"];查询= tokenizedDocument (str)

8个代币:一只棕色的狐狸跳过了懒狗。6个代币:另一只狐狸跳过了懒狗

计算MMR得分使用mmrScores函数。输出是一个稀疏矩阵。

成绩= mmrScores(文档、查询);

在热图上可视化MMR得分。

图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(“MMR分数”）

图中包含一个热图类型的对象。热图类型的图表有MMR评分。

分数越高，与查询文档的相关性就越强。

相关性和冗余

打开生活的脚本

创建一个输入文档数组。

str = ["那只敏捷的棕色狐狸跳过了那只懒狗""那只敏捷的棕色狐狸跳过了那只懒狗""快狐狸跳过了懒狗""狗坐在那里什么也不做"“其他动物坐在那里观看”“其他动物坐在那里观看”];文件= tokenizedDocument (str);

从输入文档创建单词袋模型。

袋= bagOfWords(文档)

词汇:["the" "quick" "brown" "fox"…NumWords: 17 NumDocuments: 6

创建一个查询文档数组。

str = ["一只棕色狐狸跳过了那只懒狗""另一只狐狸跳过了那只狗"];查询= tokenizedDocument (str)

8个代币:一只棕色的狐狸跳过了懒狗。6个代币:另一只狐狸跳过了懒狗

计算MMR评分。输出是一个稀疏矩阵。

成绩= mmrScores(袋、查询);

在热图上可视化MMR得分。

图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(“MMR分数”）

图中包含一个热图类型的对象。热图类型的图表有MMR评分。

现在再次计算分数，并将lambda值设置为0.01。当lambda值接近0时，冗余文档会产生较低的分数，而不同(但查询相关性较小)的文档会产生较高的分数。

λ= 0.01;成绩= mmrScores(袋、查询、λ);

在热图上可视化MMR得分。

图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(MMR Scores, lambda =+λ)

图中包含一个热图类型的对象。类型热图的图表标题为MMR Scores, lambda = 0.01。

最后，再次计算分数并将lambda值设置为1。当lambda值为1时，尽管其他文档生成高分，但与查询相关的文档生成高分。

λ= 1;成绩= mmrScores(袋、查询、λ);

在热图上可视化MMR得分。

图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(MMR Scores, lambda =+λ)

图中包含一个热图类型的对象。类型热图的图表有标题MMR Scores, lambda = 1。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

输入文档，指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。要指定多个文档，请使用tokenizedDocument数组中。

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

输入bag-of-words或bag-of-n-grams模型，指定为bagOfWords对象或一个bagOfNgrams对象。如果袋是一个bagOfNgrams对象，则该函数将每个n-gram视为单个单词。

`查询`- - - - - -查询文档集
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

查询文档集，指定为以下之一:

一个tokenizedDocument数组
1 -N表示单个文档的字符串数组，其中每个元素都是一个单词
1 -N表示单个文档的字符向量的单元格数组，其中每个元素都是一个单词

为了计算术语频率和反文档频率统计，该函数进行编码查询使用词汇袋模型。它使用的模型取决于调用它的语法。如果你的语法指定了输入参数文档，然后使用bagOfWords(文档)．如果你的语法指定袋，然后函数进行编码查询使用袋然后使用得到的tf-idf矩阵。

`λ`- - - - - -权衡相关性和冗余
0．3(默认)|负的标量

在相关性和冗余之间进行权衡，指定为非负标量。

当λ接近0时，冗余文档会产生较低的分数，而多样化(但查询相关性较低)文档会产生较高的分数。如果λ为1，则查询相关的文档将产生更高的分数，尽管其他文档会产生较高的分数。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

输出参数

全部折叠

`分数`——MMR分数
向量

MMR评分，返回为N1——- - - - - -N2矩阵,分数(i, j)MMR评分是多少文档(我)相对于j查询文档，和N1和N2分别为输入文档和查询文档的数量。

如果一个文档既与查询相关，又与其他文档相似度最小，那么该文档的MMR得分就较高。

参考文献

卡波奈尔，詹姆·G和杰德·戈德斯坦。“使用MMR，基于多样性的重新排序来重新排序文件和生成摘要。”在市立，第98卷，第335-336页。1998.

另请参阅

主题

使用注意的顺序翻译

介绍了R2020a

mmrScores

语法

描述

例子

关联查询

相关性和冗余

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

`查询`- - - - - -查询文档集
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`λ`- - - - - -权衡相关性和冗余
0．3(默认)|负的标量

输出参数

`分数`——MMR分数
向量

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

mmrScores

语法

描述

例子

关联查询

相关性和冗余

输入参数

文档- - - - - -输入文档tokenizedDocument数组|字串数组|字符向量的单元格数组

袋- - - - - -输入模型bagOfWords对象|bagOfNgrams对象

查询- - - - - -查询文档集tokenizedDocument数组|字串数组|字符向量的单元格数组

λ- - - - - -权衡相关性和冗余0．3(默认)|负的标量

输出参数

分数——MMR分数向量

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

`查询`- - - - - -查询文档集
`tokenizedDocument`数组|字串数组|字符向量的单元格数组

`λ`- - - - - -权衡相关性和冗余
0．3(默认)|负的标量

`分数`——MMR分数
向量