bleuEvaluationScore

评估翻译或总结蓝色相似性得分

所有的页面崩溃

语法

分数= bleuEvaluationScore(候选人,引用)

分数= bleuEvaluationScore(候选人、引用名称=值)

描述

双语评价替补(蓝色)评分算法评估候选文档之间的相似度和参考文档的集合。使用蓝色的分数来评估文档翻译和总结模型的质量。

例子

分数= bleuEvaluationScore (候选人,引用)返回指定的候选人之间的蓝色相似性得分文档和参考文档。函数计算语法之间的重叠候选人和引用对于语法长度4、权重相等。有关更多信息,请参见蓝色的分数。

例子

分数= bleuEvaluationScore (候选人,引用,名称=值)使用一个或多个名称参数指定附加选项。

例子

全部折叠

评估总结

打开生活的脚本

创建一个数组标记化的文件和提取使用extractSummary函数。

str = [“狐狸跳过的狗。”“快速的棕色狐狸跳过了懒惰的狗。”“懒惰的狗看见一只狐狸跳。”“似乎有动物跳其他动物。”“有敏捷的动物和懒惰的动物”];文件= tokenizedDocument (str);摘要= extractSummary(文档)

摘要= tokenizedDocument: 10令牌:快速的棕色狐狸跳过了懒惰的狗。

作为一个指定的参考文档tokenizedDocument数组中。

str = [“那只敏捷的棕色动物跳过了懒惰的狗。”“那只敏捷的棕色狐狸跳过了懒惰的狗。”];引用= tokenizedDocument (str);

计算之间的蓝色分数总结和参考文档使用bleuEvaluationScore函数。

分数= bleuEvaluationScore(总结、引用)

分数= 0.7825

这一点表明一个相当不错的相似性。一个蓝色的分数接近1表示强烈的相似性。

指定语法权重

打开生活的脚本

创建一个数组标记化的文件和提取使用extractSummary函数。

str = [“狐狸跳过的狗。”“快速的棕色狐狸跳过了懒惰的狗。”“懒惰的狗看见一只狐狸跳。”“似乎有动物跳其他动物。”“有敏捷的动物和懒惰的动物”];文件= tokenizedDocument (str);摘要= extractSummary(文档)

摘要= tokenizedDocument: 10令牌:快速的棕色狐狸跳过了懒惰的狗。

作为一个指定的参考文档tokenizedDocument数组中。

str = [“那只敏捷的棕色动物跳过了懒惰的狗。”“那只敏捷的棕色狐狸跳过了懒惰的狗。”];引用= tokenizedDocument (str);

候选人之间的蓝色得分计算文档和参考文档使用默认选项。的bleuEvaluationScore函数,默认情况下,通过四字格的长度使用一个相等的权重。

分数= bleuEvaluationScore(总结、引用)

分数= 0.7825

鉴于总结文档只有一个字不同的参考文档,这个分数可能建议相似度低于预期。这种行为是由于函数使用字格太大的文档长度短。

为了解决这个问题,使用短字格通过设置“NgramWeights”选择一个短向量。再次计算蓝色分数只使用unigrams和三元通过设置“NgramWeights”选择一个双元素向量。平等对待unigrams和三元通过指定权重相等。

分数= bleuEvaluationScore(总结、引用“NgramWeights”(0.5 - 0.5))

分数= 0.8367

这一点表明一个比之前更好的相似性。

输入参数

全部折叠

`候选人`- - - - - -候选人文档
`tokenizedDocument`标量|字符串数组|单元阵列的特征向量

候选人文件,指定为一个tokenizedDocument标量,字符串数组或单元阵列的特征向量。如果候选人不是一个tokenizedDocument标量,它必须是一个行向量代表一个文档,其中每个元素是一个词。

`引用`- - - - - -参考文档
`tokenizedDocument`数组|字符串数组|单元阵列的特征向量

参考文件,指定为一个tokenizedDocument数组,字符串数组或单元阵列的特征向量。如果引用不是一个tokenizedDocument数组,那么它必须是一个行向量代表一个文档,其中每个元素是一个词。评估对多个参考文档,使用tokenizedDocument数组中。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:bleuEvaluationScore(候选人、引用IgnoreCase = true)评估蓝色相似分数忽视的情况

`NgramWeights`- - - - - -语法的重量
`(0.25 - 0.25 0.25 - 0.25)`(默认)|行向量的非负有限值

语法权重、指定为非负有限值的行向量,NgramWeights(我)对应的重量- gram的长度我。权向量的长度决定了语法的范围长度使用蓝色分数评价。函数可实现n元权重总和。

提示

如果单词的数量候选人小于元素的数量吗ngramWeights,那么由此产生的蓝色得分为零。以确保bleuEvaluationScore返回非零得分很短的文件,设置ngramWeights用更少的元素比一个向量的字数候选人。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`IgnoreCase`- - - - - -选项来忽略大小写
`0`(`假`)(默认)|`1`(`真正的`)

选项来忽略大小写,指定这些值之一:

0(假)- - -使用区分大小写比较候选人和引用。
1(真正的)- - -比较候选人和引用忽略的情况。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑

输出参数

全部折叠

`分数`——蓝色的分数
标量

蓝色得分,返回标量值在[0,1]或范围南。

一个蓝色的分数接近零显示可怜的相似性候选人和引用。一个蓝色的分数接近1表示强烈的相似性。如果候选人相同的一个参考文档,然后呢分数是1。如果候选人和引用都是空的文件呢分数是南。有关更多信息,请参见蓝色的分数。

提示

算法

全部折叠

蓝色的分数

双语评价替补得分(蓝色)算法[1]评估候选人之间的相似文档和参考文档的集合。使用蓝色的分数来评估文档翻译和总结模型的质量。

蓝色的分数计算,算法使用语法计数、剪语法重要,修改语法准确性分数和一个简洁的点球。

剪语法计数功能 $数_{剪辑}$ ,如果有必要,每个语法的语法数截断,不超过最大计数观察到任何一个引用的语法。是由剪计数功能

$数_{剪辑} (语法) = 最小值 (数 (语法), MaxRefCount (语法)),$

在哪里 $数 (语法)$ 表示语法计数和 $MaxRefCount (语法)$ 是最大的语法计数观察到在一个参考文档的语法。

的修改语法准确性分数是由

$p_{n} = \frac{\sum_{C \in {候选人}} \sum_{语法 \in C} 数_{剪辑} (语法)}{\sum_{C ” \in {候选人}} \sum_{{语法}^{'} \in C^{'}} 数 ({语法}^{'})},$

在哪里n对应于语法和长度 ${候选人}$ 文件是一组句子的候选人。

给定一个向量n元的权重w,蓝色的分数是由

$bleuScore = 英国石油公司 \cdot 经验值 (\sum_{n = 1}^{N} w_{n} 日志 {\bar{p}}_{n}),$

在哪里N是最大的语法长度、条目 $\bar{p}$ 对应的修改语法精度的几何平均值,和 $英国石油公司$ 是简洁的点球给出的

$英国石油公司 = {\begin{matrix} 1 & 如果 c > r \\ e^{1 - \frac{r}{c}} & 如果 c \leq r \end{matrix}$

在哪里c的长度是候选文档和r的长度参考文档长度接近的候选人。

引用

[1]Papineni,基肖尔,萨利姆Roukos托德·沃德,Wei-Jing朱。“蓝色:机器翻译的自动评价方法。”In美国40对计算语言学协会年度会议,311 - 318页。计算语言学协会,2002。

版本历史

介绍了R2020a

另请参阅

主题

Sequence-to-Sequence翻译使用注意

bleuEvaluationScore

语法

描述

例子

评估总结

指定语法权重

输入参数

候选人- - - - - -候选人文档tokenizedDocument标量|字符串数组|单元阵列的特征向量

引用- - - - - -参考文档tokenizedDocument数组|字符串数组|单元阵列的特征向量

名称-值参数

NgramWeights- - - - - -语法的重量(0.25 - 0.25 0.25 - 0.25)(默认)|行向量的非负有限值

IgnoreCase- - - - - -选项来忽略大小写0(假)(默认)|1(真正的)

输出参数

分数——蓝色的分数标量

算法

蓝色的分数

引用

版本历史

另请参阅

主题

`候选人`- - - - - -候选人文档
`tokenizedDocument`标量|字符串数组|单元阵列的特征向量

`引用`- - - - - -参考文档
`tokenizedDocument`数组|字符串数组|单元阵列的特征向量

`NgramWeights`- - - - - -语法的重量
`(0.25 - 0.25 0.25 - 0.25)`(默认)|行向量的非负有限值

`IgnoreCase`- - - - - -选项来忽略大小写
`0`(`假`)(默认)|`1`(`真正的`)

`分数`——蓝色的分数
标量