主要内容

mmrscores

具有最大边际相关性(MMR)算法的文档评分

描述

例子

分数= mmrscores(文件,,,,查询分数文件根据他们与查询使用MMR算法避免冗余。分数分数(i,j)是MMR得分文档(i)关系到查询(j)

分数= mmrscores(,,,,查询由单词袋或n-grams模型编码的分数文件关系到查询。分数分数(i,j)是MMR分数一世TH文档在关系到查询(j)

分数= mmrscores(___,,,,兰姆达还指定了相关性和冗余之间的权衡。

例子

全部收缩

创建一系列输入文档。

str = [“快速的棕色狐狸跳过了懒狗”“快狐狸跳过了懒狗”“狗坐在那里什么也没做”“其他动物坐在那里看”];文档= tokenizedDocument(str)
文档= 4x1令牌图:9令牌:快速的棕色狐狸跳过了懒狗8代币:快狐狸跳过了懒狗7代币:狗坐在那里,无所作为6个令牌:其他动物坐在那里看着看着看着

创建一系列查询文档。

str = [“一只棕狐跳过懒狗”“另一只狐狸跳过狗”];查询= tokenizedDocument(str)
查询= 2x1 tokenizeDocument:8代币:一只棕狐跳过了懒狗6代币:另一只狐狸跳过狗

使用mmrscores功能。输出是稀疏矩阵。

分数= mmrscores(文档,查询);

在热图中可视化MMR分数。

图热图(分数);Xlabel(“查询文档”)ylabel(“输入文档”) 标题(“ MMR分数”

图包含一个类型热图的对象。Heatmap类型的图表具有标题MMR分数。

较高的分数对应于查询文档的stonger恢复。

创建一系列输入文档。

str = [“快速的棕色狐狸跳过了懒狗”“快速的棕色狐狸跳过了懒狗”“快狐狸跳过了懒狗”“狗坐在那里什么也没做”“其他动物坐在那里看”“其他动物坐在那里看”];文档= tokenizedDocument(str);

从输入文档中创建一个单词型模型。

bag = bagofwords(文档)
bag =带有属性的bagofwords:计数:[6x17 double]词汇:[““ Quick''“ brown”“ brown”“ fox” ...] numwords:17 numdocuments:6

创建一系列查询文档。

str = [“一只棕狐跳过懒狗”“另一只狐狸跳过狗”];查询= tokenizedDocument(str)
查询= 2x1 tokenizeDocument:8代币:一只棕狐跳过了懒狗6代币:另一只狐狸跳过狗

计算MMR分数。输出是稀疏矩阵。

分数= mmrscores(袋,查询);

在热图中可视化MMR分数。

图热图(分数);Xlabel(“查询文档”)ylabel(“输入文档”) 标题(“ MMR分数”

图包含一个类型热图的对象。Heatmap类型的图表具有标题MMR分数。

现在,再次计算得分,并将lambda值设置为0.01。当lambda值接近0时,冗余文档的分数较低,并且不同的(但与查询相关)的文档产生的分数较高。

lambda = 0.01;分数= mmrscores(袋子,查询,lambda);

在热图中可视化MMR分数。

图热图(分数);Xlabel(“查询文档”)ylabel(“输入文档”) 标题(“ MMR分数,lambda =”+ lambda)

图包含一个类型热图的对象。热图类型的图表具有标题MMR分数,lambda = 0.01。

最后,再次计算得分,并将lambda值设置为1。当lambda值为1时,尽管其他文档得分很高,但与查询相关的文档产生了更高的分数。

lambda = 1;分数= mmrscores(袋子,查询,lambda);

在热图中可视化MMR分数。

图热图(分数);Xlabel(“查询文档”)ylabel(“输入文档”) 标题(“ MMR分数,lambda =”+ lambda)

图包含一个类型热图的对象。热图类型的图表具有标题MMR分数,lambda = 1。

输入参数

全部收缩

输入文档,指定为象征性文档数组,单词字符串阵列或字符向量的单元格数组。如果文件不是一个象征性文档数组,然后必须是代表单个文档的行矢量,其中每个元素是一个单词。要指定多个文档,请使用象征性文档大批。

输入袋或n-grams型号,指定为小词对象或一个Bagofngrams目的。如果是一个Bagofngrams对象,然后该函数将每个n-gram视为一个单词。

一组查询文档,指定为以下之一:

  • 一个象征性文档大批

  • 1乘n字符串阵列代表一个文档,其中每个元素是一个单词

  • 1乘n字符矢量的单元格数字代表一个文档,其中每个元素都是一个词

要计算术语频率和逆文档频率统计,该函数编码查询使用单词范围的型号。它使用的模型取决于您称之为的语法。如果您的语法指定输入参数文件,然后使用Bagofword(文档)。如果您的语法指定,然后函数编码查询使用然后使用生成的TF-IDF矩阵。

相关性和冗余之间的权衡,指定为非负标量。

什么时候兰姆达接近0,冗余文档产生的分数较低,并且各种各样的(但与查询相关)的文档产生的分数较高。如果兰姆达为1,然后与查询相关的文档获得更高的分数,尽管其他文件得分很高。

数据类型:单身的|双倍的|int8|INT16|INT32|INT64|UINT8|UINT16|UINT32|Uint64

输出参数

全部收缩

MMR分数,返回N1-经过-N2矩阵,哪里分数(i,j)是MMR得分文档(i)关系到j查询文件,以及N1N2分别是输入和查询文档的数量。

如果文档与查询相关,并且相对于其他文档具有最小的相似性,则具有很高的MMR分数。

参考

[1] Carbonell,Jaime G.和Jade Goldstein。“使用MMR,基于多样性的重新依赖重新排序文档和产生摘要。”在西吉尔,卷。98,第335-336页。1998。

版本历史记录

在R2020a中引入