主要内容

bleuEvaluationScore

使用BLEU相似度评分评估翻译或摘要

描述

双语评估替代研究(BLEU)评分算法评估一个候选文档和一组参考文档之间的相似性。使用BLEU评分来评估文档翻译和摘要模型的质量。

例子

分数= bleuEvaluationScore (候选人参考文献返回指定候选文档和参考文档之间的BLEU相似度评分。该函数计算n-gram之间的重叠候选人参考文献对于n-gram长度1到4,权重相等。有关更多信息,请参见蓝色的分数

例子

分数= bleuEvaluationScore (候选人参考文献“NgramWeights”,ngramWeights使用指定的n-gram权重,其中ngramWeights(我)对应于长度n克的权重.权重向量的长度决定了用于BLEU评分评估的n-gram长度的范围。

例子

全部折叠

属性创建标记化文档数组并提取摘要extractSummary函数。

str = [“狐狸跳过了狗。”“那只快速的棕色狐狸跳过了懒狗。”“懒狗看见一只狐狸在跳。”“好像有动物在跳别的动物。”有敏捷的动物,也有懒惰的动物];文件= tokenizedDocument (str);摘要= extractSummary(文档)
那只快速的棕色狐狸跳过了那只懒狗。

将引用文档指定为tokenizedDocument数组中。

str = ["那只敏捷的棕色动物跳过了那只懒狗。"“那只敏捷的棕色狐狸跳过了那只懒狗。”];引用= tokenizedDocument (str);

使用。计算摘要和参考文档之间的BLEU分数bleuEvaluationScore函数。

分数= bleuEvaluationScore(总结、引用)
分数= 0.7825

这个分数表明相当相似。接近1的BLEU分数表明两者非常相似。

属性创建标记化文档数组并提取摘要extractSummary函数。

str = [“狐狸跳过了狗。”“那只快速的棕色狐狸跳过了懒狗。”“懒狗看见一只狐狸在跳。”“好像有动物在跳别的动物。”有敏捷的动物,也有懒惰的动物];文件= tokenizedDocument (str);摘要= extractSummary(文档)
那只快速的棕色狐狸跳过了那只懒狗。

将引用文档指定为tokenizedDocument数组中。

str = ["那只敏捷的棕色动物跳过了那只懒狗。"“那只敏捷的棕色狐狸跳过了那只懒狗。”];引用= tokenizedDocument (str);

使用默认选项计算候选文档和参考文档之间的BLEU分数。的bleuEvaluationScore默认情况下,函数使用长度为1到4的n-g,具有相同的权重。

分数= bleuEvaluationScore(总结、引用)
分数= 0.7825

鉴于摘要文档与参考文档仅相差一个单词,这个分数可能表明相似度低于预期。这种行为是由于使用n-g的函数,n-g对于较短的文档长度来说太大了。

要解决这个问题,可以通过设置“NgramWeights”选择一个更短的向量。通过设置,只使用unigrams和双字母来再次计算BLEU分数“NgramWeights”选择一个二元素向量。通过指定相等的权重来平等对待单字和双字。

分数= bleuEvaluationScore(总结、引用“NgramWeights”(0.5 - 0.5))
分数= 0.8367

这个分数表明了比以前更好的相似性。

输入参数

全部折叠

候选文档,指定为tokenizedDocument标量、字符串数组或字符向量的单元格数组。如果候选人不是一个tokenizedDocument标量,那么它必须是表示单个文档的行向量,其中每个元素都是一个单词。

参考文档,指定为tokenizedDocument数组、字符串数组或字符向量的单元格数组。如果参考文献不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要根据多个参考文件进行评估,请使用atokenizedDocument数组中。

N-gram权值,指定为具有有限非负值的行向量,其中ngramWeights(我)对应于长度n克的权重.权重向量的长度决定了用于BLEU评分评估的n-gram长度的范围。该函数将n元权重归一。

提示

如果单词的数量候选人小于元素的个数ngramWeights,则最终的BLEU得分为零。以确保bleuEvaluationScore返回非常短的文档的非零分数,setngramWeights到元素个数少于in的单词数的向量候选人

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

输出参数

全部折叠

BLEU得分,返回为范围[0,1]或的标量值

如果BLEU的分数接近于零,说明两者之间的相似性很差候选人参考文献.接近1的BLEU分数表明两者非常相似。如果候选人和其中一个参考文档是一样的吗分数是1。如果候选人参考文献那么,两个文档都是空的吗分数.有关更多信息,请参见蓝色的分数

提示

如果单词的数量候选人小于元素的个数ngramWeights,则最终的BLEU得分为零。以确保bleuEvaluationScore返回非常短的文档的非零分数,setngramWeights到元素个数少于in的单词数的向量候选人

算法

全部折叠

蓝色的分数

双语评估替补(BLEU)评分算法[1]评估候选文档和参考文档集合之间的相似性。使用BLEU评分来评估文档翻译和摘要模型的质量。

为了计算BLEU分数,该算法使用n-gram计数,剪语法重要修改的n-gram精度分数和一个简洁的点球

裁剪的n-gram计数函数 剪辑 ,如果有必要,截断每个n-gram的n-gram计数,使其不超过在该n-gram的任何单个引用中观察到的最大计数。剪切计数函数为

剪辑 语法 最小值 语法 MaxRefCount 语法

在哪里 语法 表示n-gram计数和 MaxRefCount 语法 是在单个引用文档中观察到的该n-gram的最大n-gram计数。

修改的n-gram精度分数是由

p n C 候选人 语法 C 剪辑 语法 C 候选人 语法 C 语法

在哪里n对应于n-gram长度和 候选人 是候选文档中的一组句子。

给定一个n元权重的向量w,蓝色的分数是由

bleuScore 英国石油公司 · 经验值 n 1 N w n 日志 p ¯ n

在哪里N最大的n-gram长度是,里面的项吗 p ¯ 对应于修正的n-gram精度的几何平均,和 英国石油公司 简洁的点球给出的

英国石油公司 1 如果 c > r e 1 r c 如果 c r

在哪里c候选人文件的长度是多少r最接近候选文档长度的引用文档的长度。

参考文献

[1] Papineni, Kishore, Salim Roukos, Todd Ward, Wei-Jing Zhu。“BLEU:机器翻译的自动评价方法”。在计算语言学协会第四十届年会论文集, 311 - 318页。计算机语言学协会,2002。

介绍了R2020a