主要内容

BleueValuationsCore

用BLEU相似性评分评估翻译或汇总

描述

双语评估研究(BLEU)评分算法评估了候选文档和参考文档集合之间的相似性。使用BLEU分数评估文档翻译和汇总模型的质量。

例子

分数= bleuevaluationscore(候选人,,,,参考返回指定候选文档和参考文档之间的BLEU相似性分数。该函数计算n-gram之间的重叠候选人参考对于n克长度,一到四个,重量相等。有关更多信息,请参阅BLEU得分

例子

分数= bleuevaluationscore(候选人,,,,参考,'ngramWeights',ngramweights使用指定的n-gram加权,其中ngramWeights(i)对应于长度的n克的重量一世。权重矢量的长度决定了用于BLEU评分评估的N克长度的范围。

例子

全部收缩

创建一系列令牌化文档,并使用该文档提取摘要提取物功能。

str = [“狐狸跳过狗。”“快速的棕色狐狸跳过了懒狗。”“懒狗看到一只狐狸跳。”“似乎有动物跳过其他动物。”“有快速的动物和懒惰的动物”];文档= tokenizedDocument(str);摘要= extractsummary(文档)
摘要= tokenizeDocument:10代币:快速的棕色狐狸跳过了懒狗。

将参考文档指定为象征性文档大批。

str = [“快速的棕色动物跳过了懒狗。”“快速的棕色狐狸跳过了懒狗。”];参考= tokenizedDocument(str);

使用该摘要和参考文档之间的BLEU分数BleueValuationsCore功能。

分数= bleuevaluationscore(摘要,参考)
得分= 0.7825

该分数表明相当不错。接近一个的BLEU得分表示强烈的相似性。

创建一系列令牌化文档,并使用该文档提取摘要提取物功能。

str = [“狐狸跳过狗。”“快速的棕色狐狸跳过了懒狗。”“懒狗看到一只狐狸跳。”“似乎有动物跳过其他动物。”“有快速的动物和懒惰的动物”];文档= tokenizedDocument(str);摘要= extractsummary(文档)
摘要= tokenizeDocument:10代币:快速的棕色狐狸跳过了懒狗。

将参考文档指定为象征性文档大批。

str = [“快速的棕色动物跳过了懒狗。”“快速的棕色狐狸跳过了懒狗。”];参考= tokenizedDocument(str);

使用默认选项计算候选文档和参考文档之间的BLEU分数。这BleueValuationsCore默认情况下,函数使用具有相等权重的长度为一到四的n克。

分数= bleuevaluationscore(摘要,参考)
得分= 0.7825

鉴于摘要文档仅通过一个单词与其中一个参考文档有所不同,因此该分数可能表明相似性低于预期。此行为是由于使用n-gram的函数引起的,而n-gram对于短文档长度来说太大了。

要解决这个问题,请通过设置较短的n-grams'ngramWeights'较短矢量的选项。通过设置仅使用UMIGRAM和BIGRAM,再次计算BLEU分数'ngramWeights'两元素向量的选项。通过指定相等的权重,同样处理umram和bigrams。

分数= bleuevaluationscore(摘要,参考,,'ngramWeights',[0.5 0.5])
得分= 0.8367

该分数比以前更好。

输入参数

全部收缩

候选文件,指定为象征性文档标量,字符串数组或字符向量的单元格数组。如果候选人不是一个象征性文档标量,那么它必须是代表单个文档的行矢量,其中每个元素是一个单词。

参考文档,指定为象征性文档数组,字符串数组或字符向量的单元格数组。如果参考不是一个象征性文档数组,然后必须是代表单个文档的行矢量,其中每个元素是一个单词。要根据多个参考文档进行评估,请使用象征性文档大批。

n-gram权重,指定为有限非负值的行矢量,其中ngramWeights(i)对应于长度的n克的重量一世。权重矢量的长度决定了用于BLEU评分评估的N克长度的范围。该函数将n-gram权重归一化为总和。

小费

如果单词数中的数量候选人小于中的元素数量ngramweights,然后由此产生的BLEU分数为零。为了保证BleueValuationsCore返回非常短的文档的非零分数,设置ngramweights对于元素少于单词数量的向量候选人

数据类型:单身的|双倍的|int8|INT16|INT32|INT64|UINT8|UINT16|UINT32|Uint64

输出参数

全部收缩

BLEU分数,作为标量值返回[0,1]或

接近零的BLEU分数表示相似性很差候选人参考。接近一个的BLEU得分表示强烈的相似性。如果候选人与参考文档之一相同,然后分数是1.如果候选人参考都是空文档,然后分数。有关更多信息,请参阅BLEU得分

小费

如果单词数中的数量候选人小于中的元素数量ngramweights,然后由此产生的BLEU分数为零。为了保证BleueValuationsCore返回非常短的文档的非零分数,设置ngramweights对于元素少于单词数量的向量候选人

算法

全部收缩

BLEU得分

双语评估研究(BLEU)评分算法[1]评估候选文件和参考文档集合之间的相似性。使用BLEU分数评估文档翻译和汇总模型的质量。

为了计算BLEU分数,该算法使用n-gram计数,剪切的n-gram计数,,,,修改后的N克精度分数,a简洁的惩罚

剪切的n-gram计数函数 数数 夹子 ,如有必要,将每个n-gram的n-gram计数截断,以使其不超过该n-gram的任何单个参考中观察到的最大计数。剪辑计数功能由

数数 夹子 (( n-gram = 最小 (( 数数 (( n-gram ,,,, Maxrefcount (( n-gram ,,,,

在哪里 数数 (( n-gram 表示n-gram计数和 Maxrefcount (( n-gram 是该n-gram的单个参考文档中观察到的最大的n-gram计数。

修改后的N克精度分数

p n = C { 候选人 } n-gram C 数数 夹子 (( n-gram C ' { 候选人 } n-gram ' C ' 数数 (( n-gram ' ,,,,

在哪里n对应于n-gram长度, { 候选人 } 是候选文件中的一组句子。

给定n-gram权重的向量w, 这BLEU得分是(谁)给的

BLEUSCORE = bp · 经验 (( n = 1 n w n 日志 p n ,,,,

在哪里n是最大的n克长度,条目 p 对应于修改后的n-gram精度的几何平均值,以及 bp 是个简洁的惩罚给出

bp = { 1 如果 C > r e 1 - r C 如果 C r

在哪里C是候选文件的长度,r是最接近候选长度的参考文档的长度。

参考

[1] Papineni,Kishore,Salim Roukos,Todd Ward和Wei-Jing Zhu。“ BLEU:一种自动评估机器翻译的方法。”在第40届计算语言学协会年会论文集,第311-318页。计算语言学协会,2002年。

版本历史记录

在R2020a中引入