文档帮助中心文档
基于最大边际相关性(MMR)算法的文档评分
成绩= mmrScores(文档、查询)
成绩= mmrScores(袋、查询)
成绩= mmrScores (___λ)
例子
分数= mmrScores (文档,查询)分数文档根据它们与a的相关性查询使用MMR算法避免冗余。的分数分数(i, j)MMR评分是多少文档(我)相对于查询(j).
分数= mmrScores (文档,查询)
分数
文档
查询
分数(i, j)
文档(我)
查询(j)
分数= mmrScores (袋,查询)对由bag-of-words或bag-of-n-grams模型编码的文档进行评分袋相对于查询.的分数分数(i, j)MMR评分是多少我th文档袋相对于查询(j).
分数= mmrScores (袋,查询)
袋
我
分数= mmrScores (___,λ)还指定了相关性和冗余之间的权衡。
分数= mmrScores (___,λ)
λ
全部折叠
创建一个输入文档数组。
str = ["那只敏捷的棕色狐狸跳过了那只懒狗""快狐狸跳过了懒狗""狗坐在那里什么也不做"“其他动物坐在那里观看”];文件= tokenizedDocument (str)
这只灵巧的棕色狐狸跳过了那只懒狗。这只灵巧的狐狸跳过了那只懒狗
创建一个查询文档数组。
str = ["一只棕色狐狸跳过了那只懒狗""另一只狐狸跳过了那只狗"];查询= tokenizedDocument (str)
8个代币:一只棕色的狐狸跳过了懒狗。6个代币:另一只狐狸跳过了懒狗
计算MMR得分使用mmrScores函数。输出是一个稀疏矩阵。
mmrScores
成绩= mmrScores(文档、查询);
在热图上可视化MMR得分。
图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(“MMR分数”)
分数越高,与查询文档的相关性就越强。
str = ["那只敏捷的棕色狐狸跳过了那只懒狗""那只敏捷的棕色狐狸跳过了那只懒狗""快狐狸跳过了懒狗""狗坐在那里什么也不做"“其他动物坐在那里观看”“其他动物坐在那里观看”];文件= tokenizedDocument (str);
从输入文档创建单词袋模型。
袋= bagOfWords(文档)
词汇:["the" "quick" "brown" "fox"…NumWords: 17 NumDocuments: 6
计算MMR评分。输出是一个稀疏矩阵。
成绩= mmrScores(袋、查询);
现在再次计算分数,并将lambda值设置为0.01。当lambda值接近0时,冗余文档会产生较低的分数,而不同(但查询相关性较小)的文档会产生较高的分数。
λ= 0.01;成绩= mmrScores(袋、查询、λ);
图的热图(分数);包含(“查询文档”) ylabel (“输入文件”)标题(MMR Scores, lambda =+λ)
最后,再次计算分数并将lambda值设置为1。当lambda值为1时,尽管其他文档生成高分,但与查询相关的文档生成高分。
λ= 1;成绩= mmrScores(袋、查询、λ);
tokenizedDocument
输入文档,指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文档不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument数组中。
bagOfWords
bagOfNgrams
输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords对象或一个bagOfNgrams对象。如果袋是一个bagOfNgrams对象,则该函数将每个n-gram视为单个单词。
查询文档集,指定为以下之一:
一个tokenizedDocument数组
1 -N表示单个文档的字符串数组,其中每个元素都是一个单词
1 -N表示单个文档的字符向量的单元格数组,其中每个元素都是一个单词
为了计算术语频率和反文档频率统计,该函数进行编码查询使用词汇袋模型。它使用的模型取决于调用它的语法。如果你的语法指定了输入参数文档,然后使用bagOfWords(文档).如果你的语法指定袋,然后函数进行编码查询使用袋然后使用得到的tf-idf矩阵。
bagOfWords(文档)
在相关性和冗余之间进行权衡,指定为非负标量。
当λ接近0时,冗余文档会产生较低的分数,而多样化(但查询相关性较低)文档会产生较高的分数。如果λ为1,则查询相关的文档将产生更高的分数,尽管其他文档会产生较高的分数。
数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64
单
双
int8
int16
int32
int64
uint8
uint16
uint32
uint64
MMR评分,返回为N1——- - - - - -N2矩阵,分数(i, j)MMR评分是多少文档(我)相对于j查询文档,和N1和N2分别为输入文档和查询文档的数量。
j
如果一个文档既与查询相关,又与其他文档相似度最小,那么该文档的MMR得分就较高。
卡波奈尔,詹姆·G和杰德·戈德斯坦。“使用MMR,基于多样性的重新排序来重新排序文件和生成摘要。”在市立,第98卷,第335-336页。1998.
tokenizedDocument|bleuEvaluationScore|rougeEvaluationScore|bm25Similarity|cosineSimilarity|textrankScores|lexrankScores|extractSummary
bleuEvaluationScore
rougeEvaluationScore
bm25Similarity
cosineSimilarity
textrankScores
lexrankScores
extractSummary
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系