主要内容

mmrScores

基于最大边际相关性(MMR)算法的文档评分

描述

例子

分数= mmrScores (文档查询分数文档根据它们与a的相关性查询使用MMR算法避免冗余。的分数分数(i, j)MMR评分是多少文档(我)相对于查询(j)

分数= mmrScores (查询对由bag-of-words或bag-of-n-grams模型编码的文档进行评分相对于查询.的分数分数(i, j)MMR评分是多少th文档相对于查询(j)

分数= mmrScores (___λ还指定了相关性和冗余之间的权衡。

例子

全部折叠

创建一个输入文档数组。

str = ["那只敏捷的棕色狐狸跳过了那只懒狗""快狐狸跳过了懒狗""狗坐在那里什么也不做"“其他动物坐在那里观看”];文件= tokenizedDocument (str)
这只灵巧的棕色狐狸跳过了那只懒狗。这只灵巧的狐狸跳过了那只懒狗

创建一个查询文档数组。

str = ["一只棕色狐狸跳过了那只懒狗""另一只狐狸跳过了那只狗"];查询= tokenizedDocument (str)
8个代币:一只棕色的狐狸跳过了懒狗。6个代币:另一只狐狸跳过了懒狗

计算MMR得分使用mmrScores函数。输出是一个稀疏矩阵。

成绩= mmrScores(文档、查询);

在热图上可视化MMR得分。

图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(“MMR分数”

图中包含一个热图类型的对象。热图类型的图表有MMR评分。

分数越高,与查询文档的相关性就越强。

创建一个输入文档数组。

str = ["那只敏捷的棕色狐狸跳过了那只懒狗""那只敏捷的棕色狐狸跳过了那只懒狗""快狐狸跳过了懒狗""狗坐在那里什么也不做"“其他动物坐在那里观看”“其他动物坐在那里观看”];文件= tokenizedDocument (str);

从输入文档创建单词袋模型。

袋= bagOfWords(文档)
词汇:["the" "quick" "brown" "fox"…NumWords: 17 NumDocuments: 6

创建一个查询文档数组。

str = ["一只棕色狐狸跳过了那只懒狗""另一只狐狸跳过了那只狗"];查询= tokenizedDocument (str)
8个代币:一只棕色的狐狸跳过了懒狗。6个代币:另一只狐狸跳过了懒狗

计算MMR评分。输出是一个稀疏矩阵。

成绩= mmrScores(袋、查询);

在热图上可视化MMR得分。

图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(“MMR分数”

图中包含一个热图类型的对象。热图类型的图表有MMR评分。

现在再次计算分数,并将lambda值设置为0.01。当lambda值接近0时,冗余文档会产生较低的分数,而不同(但查询相关性较小)的文档会产生较高的分数。

λ= 0.01;成绩= mmrScores(袋、查询、λ);

在热图上可视化MMR得分。

图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(MMR Scores, lambda =+λ)

图中包含一个热图类型的对象。类型热图的图表标题为MMR Scores, lambda = 0.01。

最后,再次计算分数并将lambda值设置为1。当lambda值为1时,尽管其他文档生成高分,但与查询相关的文档生成高分。

λ= 1;成绩= mmrScores(袋、查询、λ);

在热图上可视化MMR得分。

图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(MMR Scores, lambda =+λ)

图中包含一个热图类型的对象。类型热图的图表有标题MMR Scores, lambda = 1。

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument数组中。

输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams对象,则该函数将每个n-gram视为单个单词。

查询文档集,指定为以下之一:

  • 一个tokenizedDocument数组

  • 1 -N表示单个文档的字符串数组,其中每个元素都是一个单词

  • 1 -N表示单个文档的字符向量的单元格数组,其中每个元素都是一个单词

为了计算术语频率和反文档频率统计,该函数进行编码查询使用词汇袋模型。它使用的模型取决于调用它的语法。如果你的语法指定了输入参数文档,然后使用bagOfWords(文档).如果你的语法指定,然后函数进行编码查询使用然后使用得到的tf-idf矩阵。

在相关性和冗余之间进行权衡,指定为非负标量。

λ接近0时,冗余文档会产生较低的分数,而多样化(但查询相关性较低)文档会产生较高的分数。如果λ为1,则查询相关的文档将产生更高的分数,尽管其他文档会产生较高的分数。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

输出参数

全部折叠

MMR评分,返回为N1——- - - - - -N2矩阵,分数(i, j)MMR评分是多少文档(我)相对于j查询文档,和N1N2分别为输入文档和查询文档的数量。

如果一个文档既与查询相关,又与其他文档相似度最小,那么该文档的MMR得分就较高。

参考文献

卡波奈尔,詹姆·G和杰德·戈德斯坦。“使用MMR,基于多样性的重新排序来重新排序文件和生成摘要。”在市立,第98卷,第335-336页。1998.

介绍了R2020a