mmrscores

具有最大边际相关性（MMR）算法的文档评分

在页面中崩溃

句法

分数= mmrscores（文档，查询）

分数= mmrscores（袋，查询）

分数= mmrscores（___，lambda）

描述

例子

分数= mmrscores（文件，，，，查询）分数文件根据他们与查询使用MMR算法避免冗余。分数分数（i，j）是MMR得分文档（i）关系到查询（j）。

分数= mmrscores（包，，，，查询）由单词袋或n-grams模型编码的分数文件包关系到查询。分数分数（i，j）是MMR分数一世TH文档在包关系到查询（j）。

分数= mmrscores（___，，，，兰姆达）还指定了相关性和冗余之间的权衡。

例子

全部收缩

与查询有关

打开实时脚本

创建一系列输入文档。

str = [“快速的棕色狐狸跳过了懒狗”“快狐狸跳过了懒狗”“狗坐在那里什么也没做”“其他动物坐在那里看”];文档= tokenizedDocument（str）

文档= 4x1令牌图：9令牌：快速的棕色狐狸跳过了懒狗8代币：快狐狸跳过了懒狗7代币：狗坐在那里，无所作为6个令牌：其他动物坐在那里看着看着看着

创建一系列查询文档。

str = [“一只棕狐跳过懒狗”“另一只狐狸跳过狗”];查询= tokenizedDocument（str）

查询= 2x1 tokenizeDocument：8代币：一只棕狐跳过了懒狗6代币：另一只狐狸跳过狗

使用mmrscores功能。输出是稀疏矩阵。

分数= mmrscores（文档，查询）;

在热图中可视化MMR分数。

图热图（分数）；Xlabel（“查询文档”）ylabel（“输入文档”） 标题（“ MMR分数”）

图包含一个类型热图的对象。Heatmap类型的图表具有标题MMR分数。

较高的分数对应于查询文档的stonger恢复。

相关性与冗余

打开实时脚本

创建一系列输入文档。

str = [“快速的棕色狐狸跳过了懒狗”“快速的棕色狐狸跳过了懒狗”“快狐狸跳过了懒狗”“狗坐在那里什么也没做”“其他动物坐在那里看”“其他动物坐在那里看”];文档= tokenizedDocument（str）;

从输入文档中创建一个单词型模型。

bag = bagofwords（文档）

bag =带有属性的bagofwords：计数：[6x17 double]词汇：[““ Quick''“ brown”“ brown”“ fox” ...] numwords：17 numdocuments：6

创建一系列查询文档。

str = [“一只棕狐跳过懒狗”“另一只狐狸跳过狗”];查询= tokenizedDocument（str）

查询= 2x1 tokenizeDocument：8代币：一只棕狐跳过了懒狗6代币：另一只狐狸跳过狗

计算MMR分数。输出是稀疏矩阵。

分数= mmrscores（袋，查询）;

在热图中可视化MMR分数。

图热图（分数）；Xlabel（“查询文档”）ylabel（“输入文档”） 标题（“ MMR分数”）

图包含一个类型热图的对象。Heatmap类型的图表具有标题MMR分数。

现在，再次计算得分，并将lambda值设置为0.01。当lambda值接近0时，冗余文档的分数较低，并且不同的（但与查询相关）的文档产生的分数较高。

lambda = 0.01;分数= mmrscores（袋子，查询，lambda）;

在热图中可视化MMR分数。

图热图（分数）；Xlabel（“查询文档”）ylabel（“输入文档”） 标题（“ MMR分数，lambda =”+ lambda）

图包含一个类型热图的对象。热图类型的图表具有标题MMR分数，lambda = 0.01。

最后，再次计算得分，并将lambda值设置为1。当lambda值为1时，尽管其他文档得分很高，但与查询相关的文档产生了更高的分数。

lambda = 1;分数= mmrscores（袋子，查询，lambda）;

在热图中可视化MMR分数。

图热图（分数）；Xlabel（“查询文档”）ylabel（“输入文档”） 标题（“ MMR分数，lambda =”+ lambda）

图包含一个类型热图的对象。热图类型的图表具有标题MMR分数，lambda = 1。

输入参数

全部收缩

`文件`-输入文档
`象征性文档`大批|单词字符串阵列|字符向量的单元格数

输入文档，指定为象征性文档数组，单词字符串阵列或字符向量的单元格数组。如果文件不是一个象征性文档数组，然后必须是代表单个文档的行矢量，其中每个元素是一个单词。要指定多个文档，请使用象征性文档大批。

`包`-输入模型
`小词`目的|`Bagofngrams`目的

输入袋或n-grams型号，指定为小词对象或一个Bagofngrams目的。如果包是一个Bagofngrams对象，然后该函数将每个n-gram视为一个单词。

`查询`-一组查询文档
`象征性文档`大批|单词字符串阵列|字符向量的单元格数

一组查询文档，指定为以下之一：

一个象征性文档大批
1乘n字符串阵列代表一个文档，其中每个元素是一个单词
1乘n字符矢量的单元格数字代表一个文档，其中每个元素都是一个词

要计算术语频率和逆文档频率统计，该函数编码查询使用单词范围的型号。它使用的模型取决于您称之为的语法。如果您的语法指定输入参数文件，然后使用Bagofword（文档）。如果您的语法指定包，然后函数编码查询使用包然后使用生成的TF-IDF矩阵。

`兰姆达`-相关性和冗余之间的权衡
0.3（默认）|非负标量

相关性和冗余之间的权衡，指定为非负标量。

什么时候兰姆达接近0，冗余文档产生的分数较低，并且各种各样的（但与查询相关）的文档产生的分数较高。如果兰姆达为1，然后与查询相关的文档获得更高的分数，尽管其他文件得分很高。

数据类型：单身的|双倍的|int8|INT16|INT32|INT64|UINT8|UINT16|UINT32|Uint64

输出参数

全部收缩

`分数`- MMR分数
向量

MMR分数，返回N1-经过-N2矩阵，哪里分数（i，j）是MMR得分文档（i）关系到j查询文件，以及N1和N2分别是输入和查询文档的数量。

如果文档与查询相关，并且相对于其他文档具有最小的相似性，则具有很高的MMR分数。

参考

[1] Carbonell，Jaime G.和Jade Goldstein。“使用MMR，基于多样性的重新依赖重新排序文档和产生摘要。”在西吉尔，卷。98，第335-336页。1998。

版本历史记录

在R2020a中引入

也可以看看

话题

使用注意的顺序到序列翻译

mmrscores

句法

描述

例子

与查询有关

相关性与冗余

输入参数

文件-输入文档象征性文档大批|单词字符串阵列|字符向量的单元格数

包-输入模型小词目的|Bagofngrams目的

查询-一组查询文档象征性文档大批|单词字符串阵列|字符向量的单元格数

兰姆达-相关性和冗余之间的权衡0.3（默认）|非负标量

输出参数

分数- MMR分数向量

参考

版本历史记录

也可以看看

话题

`文件`-输入文档
`象征性文档`大批|单词字符串阵列|字符向量的单元格数

`包`-输入模型
`小词`目的|`Bagofngrams`目的

`查询`-一组查询文档
`象征性文档`大批|单词字符串阵列|字符向量的单元格数

`兰姆达`-相关性和冗余之间的权衡
0.3（默认）|非负标量

`分数`- MMR分数
向量