BleueValuationsCore

用BLEU相似性评分评估翻译或汇总

在页面中崩溃

句法

分数= bleuevaluationscore（候选，参考）

分数= bleuevaluationscore（候选，参考，'ngramWeights'，ngramWeights）

描述

双语评估研究（BLEU）评分算法评估了候选文档和参考文档集合之间的相似性。使用BLEU分数评估文档翻译和汇总模型的质量。

分数= bleuevaluationscore（候选人，，，，参考）返回指定候选文档和参考文档之间的BLEU相似性分数。该函数计算n-gram之间的重叠候选人和参考对于n克长度，一到四个，重量相等。有关更多信息，请参阅BLEU得分。

例子

分数= bleuevaluationscore（候选人，，，，参考，'ngramWeights'，ngramweights）使用指定的n-gram加权，其中ngramWeights（i）对应于长度的n克的重量一世。权重矢量的长度决定了用于BLEU评分评估的N克长度的范围。

例子

全部收缩

评估摘要

打开实时脚本

创建一系列令牌化文档，并使用该文档提取摘要提取物功能。

str = [“狐狸跳过狗。”“快速的棕色狐狸跳过了懒狗。”“懒狗看到一只狐狸跳。”“似乎有动物跳过其他动物。”“有快速的动物和懒惰的动物”];文档= tokenizedDocument（str）;摘要= extractsummary（文档）

摘要= tokenizeDocument：10代币：快速的棕色狐狸跳过了懒狗。

将参考文档指定为象征性文档大批。

str = [“快速的棕色动物跳过了懒狗。”“快速的棕色狐狸跳过了懒狗。”];参考= tokenizedDocument（str）;

使用该摘要和参考文档之间的BLEU分数BleueValuationsCore功能。

分数= bleuevaluationscore（摘要，参考）

得分= 0.7825

该分数表明相当不错。接近一个的BLEU得分表示强烈的相似性。

指定n-gram权重

打开实时脚本

创建一系列令牌化文档，并使用该文档提取摘要提取物功能。

str = [“狐狸跳过狗。”“快速的棕色狐狸跳过了懒狗。”“懒狗看到一只狐狸跳。”“似乎有动物跳过其他动物。”“有快速的动物和懒惰的动物”];文档= tokenizedDocument（str）;摘要= extractsummary（文档）

摘要= tokenizeDocument：10代币：快速的棕色狐狸跳过了懒狗。

将参考文档指定为象征性文档大批。

str = [“快速的棕色动物跳过了懒狗。”“快速的棕色狐狸跳过了懒狗。”];参考= tokenizedDocument（str）;

使用默认选项计算候选文档和参考文档之间的BLEU分数。这BleueValuationsCore默认情况下，函数使用具有相等权重的长度为一到四的n克。

分数= bleuevaluationscore（摘要，参考）

得分= 0.7825

鉴于摘要文档仅通过一个单词与其中一个参考文档有所不同，因此该分数可能表明相似性低于预期。此行为是由于使用n-gram的函数引起的，而n-gram对于短文档长度来说太大了。

要解决这个问题，请通过设置较短的n-grams'ngramWeights'较短矢量的选项。通过设置仅使用UMIGRAM和BIGRAM，再次计算BLEU分数'ngramWeights'两元素向量的选项。通过指定相等的权重，同样处理umram和bigrams。

分数= bleuevaluationscore（摘要，参考，，'ngramWeights'，[0.5 0.5]）

得分= 0.8367

该分数比以前更好。

输入参数

全部收缩

`候选人`-候选文件
`象征性文档`标量|字符串数组|字符向量的单元格数

候选文件，指定为象征性文档标量，字符串数组或字符向量的单元格数组。如果候选人不是一个象征性文档标量，那么它必须是代表单个文档的行矢量，其中每个元素是一个单词。

`参考`-参考文件
`象征性文档`大批|字符串数组|字符向量的单元格数

参考文档，指定为象征性文档数组，字符串数组或字符向量的单元格数组。如果参考不是一个象征性文档数组，然后必须是代表单个文档的行矢量，其中每个元素是一个单词。要根据多个参考文档进行评估，请使用象征性文档大批。

`ngramweights`-n-gram权重
`[0.25 0.25 0.25 0.25]`（默认）|有限非负值的行矢量

n-gram权重，指定为有限非负值的行矢量，其中ngramWeights（i）对应于长度的n克的重量一世。权重矢量的长度决定了用于BLEU评分评估的N克长度的范围。该函数将n-gram权重归一化为总和。

小费

如果单词数中的数量候选人小于中的元素数量ngramweights，然后由此产生的BLEU分数为零。为了保证BleueValuationsCore返回非常短的文档的非零分数，设置ngramweights对于元素少于单词数量的向量候选人。

数据类型：单身的|双倍的|int8|INT16|INT32|INT64|UINT8|UINT16|UINT32|Uint64

输出参数

全部收缩

`分数`- Bleu得分
标量

BLEU分数，作为标量值返回[0,1]或南。

接近零的BLEU分数表示相似性很差候选人和参考。接近一个的BLEU得分表示强烈的相似性。如果候选人与参考文档之一相同，然后分数是1.如果候选人和参考都是空文档，然后分数是南。有关更多信息，请参阅BLEU得分。

小费

算法

全部收缩

BLEU得分

双语评估研究（BLEU）评分算法[1]评估候选文件和参考文档集合之间的相似性。使用BLEU分数评估文档翻译和汇总模型的质量。

为了计算BLEU分数，该算法使用n-gram计数，剪切的n-gram计数，，，，修改后的N克精度分数，a简洁的惩罚。

剪切的n-gram计数函数 ${数数}_{夹子}$ ，如有必要，将每个n-gram的n-gram计数截断，以使其不超过该n-gram的任何单个参考中观察到的最大计数。剪辑计数功能由

${数数}_{夹子} （（ n-gram ） = 最小（（数数（（ n-gram ），，，， Maxrefcount （（ n-gram ）），，，，$

在哪里 $数数（（ n-gram ）$ 表示n-gram计数和 $Maxrefcount （（ n-gram ）$ 是该n-gram的单个参考文档中观察到的最大的n-gram计数。

这修改后的N克精度分数由

$p_{n} = \frac{\sum_{C \in {候选人}} \sum_{n-gram \in C} {数数}_{夹子} （（ n-gram ）}{\sum_{C' \in {候选人}} \sum_{{n-gram}^{'} \in C^{'}} 数数（（ {n-gram}^{'} ）} ，，，，$

在哪里n对应于n-gram长度， ${候选人}$ 是候选文件中的一组句子。

给定n-gram权重的向量w，这BLEU得分是（谁）给的

$BLEUSCORE = bp \cdot 经验（（ \sum_{n = 1}^{n} w_{n} 日志 {\overset{}{p}}_{n} ），，，，$

在哪里n是最大的n克长度，条目 $\overset{}{p}$ 对应于修改后的n-gram精度的几何平均值，以及 $bp$ 是个简洁的惩罚给出

$bp = {\begin{matrix} 1 & 如果 C > r \\ e^{1 - \frac{r}{C}} & 如果 C \leq r \end{matrix}$

在哪里C是候选文件的长度，r是最接近候选长度的参考文档的长度。

参考

[1] Papineni，Kishore，Salim Roukos，Todd Ward和Wei-Jing Zhu。“ BLEU：一种自动评估机器翻译的方法。”在第40届计算语言学协会年会论文集，第311-318页。计算语言学协会，2002年。

版本历史记录

在R2020a中引入

也可以看看

话题

使用注意的顺序到序列翻译

BleueValuationsCore

句法

描述

例子

评估摘要

指定n-gram权重

输入参数

候选人-候选文件象征性文档标量|字符串数组|字符向量的单元格数

参考-参考文件象征性文档大批|字符串数组|字符向量的单元格数

ngramweights-n-gram权重[0.25 0.25 0.25 0.25]（默认）|有限非负值的行矢量

输出参数

分数- Bleu得分标量

算法

BLEU得分

参考

版本历史记录

也可以看看

话题

`候选人`-候选文件
`象征性文档`标量|字符串数组|字符向量的单元格数

`参考`-参考文件
`象征性文档`大批|字符串数组|字符向量的单元格数

`ngramweights`-n-gram权重
`[0.25 0.25 0.25 0.25]`（默认）|有限非负值的行矢量

`分数`- Bleu得分
标量