rougeEvaluationScore

评估翻译或总结胭脂相似性得分

语法

分数= rougeEvaluationScore(候选人,引用)

分数= rougeEvaluationScore(候选人、引用名称,值)

描述

依据评价Recall-Oriented替补(高棉)评分算法评估候选文档之间的相似度和参考文档的集合。用胭脂分数评估文档翻译和总结模型的质量。

分数= rougeEvaluationScore (<一个href="#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人,<一个href="#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">引用)返回指定的候选人之间的胭脂分数文档和参考文档。这个函数,默认情况下,计算unigram之间的重叠候选人和引用。这也被称为ROUGE-N度量与语法的长度是1。有关更多信息,请参见<一个href="//www.tatmou.com/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">胭脂得分。

例子

全部折叠

计算相似度

打开生活的脚本

指定文档作为候选人tokenizedDocument对象。

str =<年代pan style="color:#A020F0">“快”的棕色狐狸跳过了懒惰的狗;候选人= tokenizedDocument (str)

候选人= tokenizedDocument: 9令牌:快速的棕色狐狸跳过了懒惰的狗

作为一个指定的参考文档tokenizedDocument数组中。

str = [<年代pan style="color:#A020F0">“那只敏捷的棕色动物越懒惰的狗”“那只敏捷的棕色狐狸跳过了懒惰的狗”];引用= tokenizedDocument (str)

引用= 2 x1 tokenizedDocument: 9令牌:敏捷的棕色动物跳过了懒惰的狗9令牌:那只敏捷的棕色狐狸跳过了懒惰的狗

候选人之间的胭脂得分计算文档和参考文档。

分数= rougeEvaluationScore(候选人,引用)

分数= 0.8889

语法指定长度

打开生活的脚本

指定文档作为候选人tokenizedDocument对象。

str =<年代pan style="color:#A020F0">“一个简单的总结文档,其中包含一些词”;候选人= tokenizedDocument (str)

候选人= tokenizedDocument: 7标记:一个简单的总结文档,其中包含一些单词

作为一个指定的参考文档tokenizedDocument数组中。

str = [<年代pan style="color:#A020F0">“一个简单的文档”“与一些单词另一个文档”];引用= tokenizedDocument (str)

引用= 2 x1 tokenizedDocument: 3标记:一个简单的文档5令牌:另一个文档和一些单词

候选人之间的胭脂得分计算文档和参考文档使用默认选项。

分数= rougeEvaluationScore(候选人,引用)

分数= 1

的rougeEvaluationScore函数,默认情况下,比较unigram(个标记)候选人之间的重叠部分文档和参考文档。因为高棉分数recall-based措施,如果其中一个参考文档完全是由unigrams出现在候选文档,产生的胭脂得分就是其中之一。在这种情况下,输出的rougeEvaluationScore函数是不提供信息的。

为一个更有意义的结果,calcualte胭脂得分再次使用三元通过设置“NgramLength”选项2。得到的分数小于1,因为每一个参考文档包含三元不出现在候选文档。

分数= rougeEvaluationScore(候选人、引用<年代pan style="color:#A020F0">“NgramLength”,2)

分数= 0.5000

输入参数

全部折叠

`候选人`- - - - - -<年代pan itemprop="purpose">候选人文档
`tokenizedDocument`标量|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">单元阵列的特征向量

候选人文件,指定为一个tokenizedDocument标量,字符串数组或单元阵列的特征向量。如果候选人不是一个tokenizedDocument标量,它必须是一个行向量代表一个文档,其中每个元素是一个词。

`引用`- - - - - -<年代pan itemprop="purpose">参考文档
`tokenizedDocument`数组|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">单元阵列的特征向量

参考文件,指定为一个tokenizedDocument数组,字符串数组或单元阵列的特征向量。如果引用不是一个tokenizedDocument数组,那么它必须是一个行向量代表一个文档,其中每个元素是一个词。评估对多个参考文档,使用tokenizedDocument数组中。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:成绩= rougeEvaluationScore(候选人、引用“ROUGEMethod”,“weighted-subsequences”)指定使用加权子序列高棉方法。

`ROUGEMethod`- - - - - -<年代pan itemprop="purpose">胭脂方法
`“字格”`(默认)|<年代pan itemprop="inputvalue">`“longest-common-subsequences”`|<年代pan itemprop="inputvalue">`“weighted-subsequences”`|<年代pan itemprop="inputvalue">`“skip-bigrams”`|<年代pan itemprop="inputvalue">`“skip-bigrams-and-unigrams”`

胭脂方法,指定为逗号分隔组成的“ROUGEMethod”和下列之一:

“字格”——评估候选人之间的胭脂分数使用语法重叠文档和参考文档。这也被称为ROUGE-N度量。
“longest-common-subsequences”——评估胭脂分数使用最长公共子序列(LCS)统计数据。这也被称为ROUGE-L度量。
“weighted-subsequences”——评估胭脂分数使用加权最长公共子序列的统计数据。这种方法有利于连续lcs。这也被称为ROUGE-W度量。
“skip-bigrams”评估使用skip-bigram胭脂得分(任何一对单词句子顺序)同现统计数据。这也被称为ROUGE-S度量。
“skip-bigrams-and-unigrams”——评估胭脂分数使用skip-bigram和unigram同现统计数据。这也被称为ROUGE-SU度量。

`NgramLength`- - - - - -<年代pan itemprop="purpose">n元长度
1(默认)|<年代pan itemprop="inputvalue">正整数

语法使用的长度“字格”胭脂(ROUGE-N)方法,指定为逗号分隔组成的“NgramLength”和一个正整数。

如果“ROUGEMethod”选择是不“字格”,那么“NgramLength”选项没有影响。

提示

如果最长的文档<一个href="#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">引用只有不到NgramLength话说,那么产生的胭脂分数南。如果<一个href="#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人只有不到NgramLength的话,那么由此产生的胭脂得分为零。以确保rougeEvaluationScore返回非零得分很短的文件,设置NgramLength一个正整数的长度小于候选人和最长的文档的长度引用。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`SkipDistance`- - - - - -<年代pan itemprop="purpose">跳跃距离
4(默认)|<年代pan itemprop="inputvalue">正整数

用于跳跃距离“skip-bigrams”和“skip-bigrams-and-unigrams”胭脂(ROUGE-S和ROUGE-SU)方法,指定为逗号分隔组成的“SkipDistance”和一个正整数。

如果“ROUGEMethod”选择是不“skip-bigrams”或“skip-bigrams-and-unigrams”,那么“SkipDistance”选项没有影响。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

输出参数

全部折叠

`分数`——胭脂得分
标量

胭脂得分,返回标量值的范围[0,1]或南。

胭脂分数接近零表示可怜的相似性<一个href="#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人和<一个href="#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">引用。胭脂分数接近1表示强烈的相似性候选人和引用。如果候选人相同的一个参考文档,然后呢分数是1。如果候选人和引用都是空文件,然后生成的胭脂分数吗南。

提示

如果最长的文档引用只有不到NgramLength话说,那么产生的胭脂分数南。如果候选人只有不到NgramLength的话,那么由此产生的胭脂得分为零。以确保rougeEvaluationScore返回非零得分很短的文件,设置NgramLength一个正整数的长度小于候选人和最长的文档的长度引用。

算法

全部折叠

胭脂得分

依据评价Recall-Oriented替补(高棉)评分算法<一个href="//www.tatmou.com/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">[1]之间的相似性计算候选文档和参考文档的集合。用胭脂分数评估文档翻译和总结模型的质量。

n元同现的统计数据(ROUGE-N)

给定一个n元长度n之间,ROUGE-N度量文档和候选人<年代pan class="emphasis">单是由参考文档

${ROUGE-N}_{单} (候选人,参考) = \frac{\sum_{r_{我} \in 参考} \sum_{语法 \in r_{我}} 数 (语法,候选人)}{\sum_{r_{我} \in 参考} numNgrams (r_{我})},$

的元素r<年代ub>我句子的参考文档,<年代pan class="inlineequation"> $数 (语法, 候选人)$ 是指定的次数n元出现在候选文档和numNgrams(右<年代ub>我)是字格的数量在指定的引用的句子吗r<年代ub>我。

对于多个参考文档集,ROUGE-N度量是由

$ROUGE-N(候选人,引用)= m 一个 x_{k} {{ROUGE-N}_{单} ({候选人,引用}_{k})} 。$

使用ROUGE-N指标,设置“ROUGEMethod”选项“字格”。

最长公共子序列(ROUGE-L)

给定一个句子<年代pan class="inlineequation"> $d = (w_{1}, \dots, w_{米}]$ 和一个句子年代,那里的元素年代<年代ub>我对应词,随后发生的事情<年代pan class="inlineequation"> $(w_{我_{1}}, \dots, w_{我_{k}}]$ 是一个<年代pan class="emphasis">公共子序列的d和年代如果<年代pan class="inlineequation"> $w_{我_{j}^{'}} \in {{年代}_{1}, \dots, {年代}_{n}}$ 为<年代pan class="inlineequation"> $j = 1, \dots, k$ 和<年代pan class="inlineequation"> $我_{1} < \dots < 我_{k}$ 的元素年代句子的单词和吗k子序列的长度。的子序列<年代pan class="inlineequation"> $(w_{我_{1}}, \dots, w_{我_{k}}]$ 是一个最长公共子序列(LCS)如果子序列的长度吗k是最大的。

给定一个候选文档和文档的一个引用<年代pan class="emphasis">联盟最长公共子序列的

$l C {年代}_{\cup} (候选人, 参考) = \underset{r_{我} \in 参考}{\cup} {w | w \in LCS (候选人, r_{我})},$

在哪里<年代pan class="inlineequation"> $LCS (候选人, r_{我})$ 是一组候选文档和最长公共子序列的句子吗r<年代ub>我从一个参考文档。

ROUGE-L度量是一个f值测量。查全率和查准率来计算,首先计算分数的

$R_{lcs} (候选人, 参考) = \frac{\sum_{r_{我} \in 参考} | {LCS}_{\cup} ({候选人,r}_{我}) |}{numWords (参考)}$

$P_{lcs} (候选人, 参考) = \frac{\sum_{r_{我} \in 参考} | {LCS}_{\cup} ({候选人,r}_{我}) |}{numWords (候选人)} 。$

然后,ROUGE-L度量之间的文档和候选人<年代pan class="emphasis">单参考文档是由f值测量

${ROUGE-L}_{单} (候选人, 参考) = \frac{(1 + β^{2}) R_{lcs} (候选人, 参考) P_{lcs} (候选人, 参考)}{R_{lcs} (候选人, 参考) + β^{2} P_{lcs} (候选人, 参考)},$

的参数<年代pan class="inlineequation"> $β$ 控制精度和召回的相对重要性。因为高棉分数喜欢回忆,<年代pan class="inlineequation"> $β$ 通常设置为高值。

对于多个参考文档集,ROUGE-L度量是由

$ROUGE-L(候选人,引用)= m 一个 x_{k} {{ROUGE-L}_{单} ({候选人,引用}_{k})} 。$

使用ROUGE-L指标,设置“ROUGEMethod”选项“longest-common-subsequences”。

加权lcs (ROUGE-W)

给定一个加权函数f这样f有财产f (x + y) > f (x) + f (y)对任何正整数x和y,定义<年代pan class="inlineequation"> $WLCS (候选人, 参考)$ 的长度最长的连续比赛中遇到候选文档和一个参考文档得分权重函数f。关于计算这个值的更多信息,请参阅<一个href="//www.tatmou.com/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">[1]。

ROUGE-W指标给定一个f值测量需要的查全率和查准率分数

$R_{wlcs} (候选人, 参考) = f^{- 1} (\frac{WLCS (候选人, 参考)}{f (numWords (参考)})$

$P_{wlcs} (候选人, 参考) = f^{- 1} (\frac{WLCS (候选人, 参考)}{f (numWords (候选人))}) 。$

文档和ROUGE-W度量之间的候选人<年代pan class="emphasis">单参考文档是由f值测量

${ROUGE-W}_{单} (候选人, 参考) = \frac{(1 + β^{2}) R_{wlcs} (候选人, 参考) P_{wlcs} (候选人, 参考)}{R_{wlcs} (候选人, 参考) + β^{2} P_{wlcs} (候选人, 参考)},$

的参数<年代pan class="inlineequation"> $β$ 控制精度和召回的相对重要性。因为高棉分数喜欢回忆,<年代pan class="inlineequation"> $β$ 通常设置为高值。

对于多个参考文档,ROUGE-W度量是由

$ROUGE-W(候选人,引用)= m 一个 x_{k} {{ROUGE-W}_{单} ({候选人,引用}_{k})} 。$

使用ROUGE-W指标,设置“ROUGEMethod”选项“weighted-longest-common-subsequences”。

Skip-Bigram同现统计(ROUGE-S)

一个<年代pan class="emphasis">skip-bigram句子中单词是一个有序对允许任意的差距。也就是说,一个句子<年代pan class="inlineequation"> $c_{我} = (c_{我 1}, \dots, c_{我米}]$ 从候选文档的元素c<年代ub>ij对应的单词句子,单词的一对<年代pan class="inlineequation"> $(c_{我 j_{1}^{'}}, c_{我 j_{2}^{'}}]$ 是一个<年代pan class="emphasis">skip-bigram如果<年代pan class="inlineequation"> $j_{1}^{'} < j_{2}^{'}$ 。

ROUGE-S度量是一个f值测量。查全率和查准率来计算,首先计算分数的

$R_{skip2} (候选人, 参考) = \frac{\sum_{r_{我} \in 参考} \sum_{skip-bigram \in r_{我}} 数 (skip-bigram, 候选人)}{\sum_{r_{我} \in 参考} numSkipBigrams (r_{我})}$

$P_{skip2} (候选人, 参考) = \frac{\sum_{r_{我} \in 参考} \sum_{skip-bigram \in r_{我}} 数 (skip-bigram, 候选人)}{\sum_{c_{我} \in 候选人} numSkipBigrams (c_{我})} 。$

的元素r<年代ub>我和c<年代ub>我句子的参考文档和候选文档,分别<年代pan class="inlineequation"> $数 (skip-bigram, 候选人)$ 是指定的次数skip-bigram出现在候选文档,然后呢numSkipBigrams (s)这句话是skip-bigrams的数量年代。

然后,ROUGE-S度量之间的文档和候选人<年代pan class="emphasis">单参考文档是由f值测量

${ROUGE-S}_{单} (候选人, 参考) = \frac{(1 + β^{2}) R_{skip2} (候选人, 参考) P_{skip2} (候选人, 参考)}{R_{skip2} (候选人, 参考) + β^{2} P_{skip2} (候选人, 参考)},$

对于多个参考文档集,ROUGE-S度量是由

$ROUGE-S(候选人,引用)= m 一个 x_{k} {{ROUGE-S}_{单} ({候选人,引用}_{k})} 。$

使用ROUGE-S指标,设置“ROUGEMethod”选项“skip-bigrams”。

Skip-Bigram和Unigram同现统计(ROUGE-SU)

也包括unigram同现统计ROUGE-S指标,引入unigram计数为ROUGE-S分数查全率和查准率。这相当于包括候选人和参考文档,开始令牌

$\sum_{skip-bigram \in r_{我}} (数 (skip-bigram, 候选人)) + \sum_{unigram \in r_{我}} (数 (unigram, 候选人) = \sum_{skip-bigram \in r_{我}^{+}} (数 (skip-bigram, {候选人}^{+})),$

在哪里计数(unigram候选人)是指定的次数unigram出现在候选文档,然后呢<年代pan class="inlineequation"> $r_{我}^{+}$ 和<年代pan class="inlineequation"> ${候选人}^{+}$ 表示引用的句子和候选文档开始标记的扩增,分别。

对于多个参考文档集,ROUGE-SU度量是由

$ROUGE-SU(候选人,引用)= m 一个 x_{k} {{ROUGE-S}_{单} ({候选人}^{+} {、引用}_{k}^{+})},$

在哪里<年代pan class="inlineequation"> ${参考}^{+}$ 是句子的参考文档开始标记的扩增。

使用ROUGE-SU指标,设置“ROUGEMethod”选项“skip-bigrams-and-unigrams”。

引用

林[1],Chin-Yew。“胭脂:一个包自动评价总结。”In文本摘要分支了,74 - 81页。2004年。

版本历史

介绍了R2020a

另请参阅

tokenizedDocument|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">bleuEvaluationScore|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">bm25Similarity|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">cosineSimilarity|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">textrankScores|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">lexrankScores|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">mmrScores|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">extractSummary

主题

Sequence-to-Sequence翻译使用注意

rougeEvaluationScore

语法

描述

例子

计算相似度

语法指定长度

输入参数

候选人- - - - - -<年代pan itemprop="purpose">候选人文档tokenizedDocument标量|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">单元阵列的特征向量

引用- - - - - -<年代pan itemprop="purpose">参考文档tokenizedDocument数组|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">单元阵列的特征向量

名称-值参数

NgramLength- - - - - -<年代pan itemprop="purpose">n元长度1(默认)|<年代pan itemprop="inputvalue">正整数

SkipDistance- - - - - -<年代pan itemprop="purpose">跳跃距离4(默认)|<年代pan itemprop="inputvalue">正整数

输出参数

分数——胭脂得分标量

算法

胭脂得分

引用

版本历史

另请参阅

主题

`候选人`- - - - - -<年代pan itemprop="purpose">候选人文档
`tokenizedDocument`标量|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">单元阵列的特征向量

`引用`- - - - - -<年代pan itemprop="purpose">参考文档
`tokenizedDocument`数组|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">单元阵列的特征向量

`NgramLength`- - - - - -<年代pan itemprop="purpose">n元长度
1(默认)|<年代pan itemprop="inputvalue">正整数

`SkipDistance`- - - - - -<年代pan itemprop="purpose">跳跃距离
4(默认)|<年代pan itemprop="inputvalue">正整数

`分数`——胭脂得分
标量