主要内容

rougeEvaluationScore

使用ROUGE相似度评分评估翻译或摘要

描述

面向回忆的给定评估替代研究(ROUGE)评分算法评估候选文档和参考文档集合之间的相似性。使用ROUGE评分来评估文档翻译和摘要模型的质量。

例子

分数= rougeEvaluationScore (<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人,<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">参考文献返回指定候选文档和引用文档之间的ROUGE分数。默认情况下,该函数计算unigram重叠候选人参考文献.这也被称为ROUGE-N度规,n格长度为1。有关更多信息,请参见<一个href="//www.tatmou.com/au/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">胭脂得分.

例子

分数= rougeEvaluationScore (<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人,<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">参考文献,<一个href="//www.tatmou.com/au/help/textanalytics/ref/#namevaluepairarguments" class="intrnllnk">名称,值使用一个或多个名称-值对指定其他选项。

例子

全部折叠

将候选文档指定为tokenizedDocument对象。

str =<年代pan style="color:#A020F0">"快速的棕色狐狸跳过了懒狗";候选人= tokenizedDocument (str)
那只快速的棕色狐狸跳过了那只懒狗

将引用文档指定为tokenizedDocument数组中。

str = [<年代pan style="color:#A020F0">"那只敏捷的棕色动物跳过了那只懒狗""那只敏捷的棕色狐狸跳过了那只懒狗"];引用= tokenizedDocument (str)
这只敏捷的棕色动物跳过了那只懒狗

计算候选文档和参考文档之间的ROUGE分数。

分数= rougeEvaluationScore(候选人,引用)
分数= 0.8889

将候选文档指定为tokenizedDocument对象。

str =<年代pan style="color:#A020F0">包含一些词语的简单摘要文件。;候选人= tokenizedDocument (str)
candidate = tokenizedDocument: 7 tokens:包含一些单词的简单摘要文档

将引用文档指定为tokenizedDocument数组中。

str = [<年代pan style="color:#A020F0">“一个简单的文档”"另一份有一些文字的文件"];引用= tokenizedDocument (str)
引用= 2x1 tokenizedDocument: 3个令牌:一个简单的文档5个令牌:另一个带有一些单词的文档

使用默认选项计算候选文档和引用文档之间的ROUGE分数。

分数= rougeEvaluationScore(候选人,引用)
分数= 1

rougeEvaluationScore函数在默认情况下比较候选文档和引用文档之间的unigram(单令牌)重叠。因为ROUGE分数是基于回忆的度量,如果一个参考文档完全由出现在候选文档中的unigrams组成,那么得到的ROUGE分数就是1。在这个场景中,rougeEvaluationScore函数是不提供信息的。

为了得到更有意义的结果,使用双格表再次计算ROUGE分数“NgramLength”选项2.结果得分小于1,因为每个引用文档都包含在候选文档中没有出现的双字母。

分数= rougeEvaluationScore(候选人、引用<年代pan style="color:#A020F0">“NgramLength”,2)
分数= 0.5000

输入参数

全部折叠

候选文档,指定为tokenizedDocument标量、字符串数组或字符向量的单元格数组。如果候选人不是一个tokenizedDocument标量,那么它必须是表示单个文档的行向量,其中每个元素都是一个单词。

参考文档,指定为tokenizedDocument数组、字符串数组或字符向量的单元格数组。如果参考文献不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要根据多个参考文件进行评估,请使用atokenizedDocument数组中。

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:成绩= rougeEvaluationScore(候选人、引用“ROUGEMethod”,“weighted-subsequences”)指定使用ROUGE方法的加权子序列。

ROUGE方法,指定为逗号分隔对,由“ROUGEMethod”以及以下其中之一:

  • “字格”-使用候选文档和参考文档之间的n-gram重叠来评估ROUGE分数。这也被称为ROUGE-N度量。

  • “longest-common-subsequences”—使用LCS(最长公共子序列)统计信息评估ROUGE评分。这也被称为ROUGE-L度量。

  • “weighted-subsequences”—使用加权最长公共子序列统计信息评估ROUGE评分。该方法适用于连续的lcs。这也被称为ROUGE-W度规。

  • “skip-bigrams”-使用skip-bigram(句子顺序中的任意一对单词)共现统计来评估ROUGE分数。这也被称为ROUGE-S度量。

  • “skip-bigrams-and-unigrams”-使用跳过双元组和非双元组共现统计数据评估ROUGE得分。这也被称为ROUGE-SU度量。

n克长度用于“字格”ROUGE方法(ROUGE- n),指定为逗号分隔的对,由“NgramLength”一个正整数。

如果“ROUGEMethod”选择是不“字格”,那么“NgramLength”期权没有效果。

提示

如果最长的文件<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">参考文献只有不到NgramLength单词,那么得到的ROUGE分数是.如果<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人只有不到NgramLength单词,则得到的ROUGE分数为零。以确保rougeEvaluationScore返回非常短的文档的非零分数,setNgramLength到小于长度的正整数候选人最长的文件的长度参考文献

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

跳过距离用于“skip-bigrams”“skip-bigrams-and-unigrams”ROUGE方法(ROUGE- s和ROUGE- su),指定为逗号分隔的对,由“SkipDistance”一个正整数。

如果“ROUGEMethod”选择是不“skip-bigrams”“skip-bigrams-and-unigrams”,那么“SkipDistance”期权没有效果。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

输出参数

全部折叠

ROUGE分数,返回为范围[0,1]或的标量值

ROUGE的分数接近于零,表明两者之间的相似性很差<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人和<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">参考文献.ROUGE分数接近1,表明两者之间非常相似候选人参考文献.如果候选人和其中一个参考文档是一样的吗分数是1。如果候选人参考文献都是空文档,那么得到的ROUGE分数是

提示

如果最长的文件参考文献只有不到NgramLength单词,那么得到的ROUGE分数是.如果候选人只有不到NgramLength单词,则得到的ROUGE分数为零。以确保rougeEvaluationScore返回非常短的文档的非零分数,setNgramLength到小于长度的正整数候选人最长的文件的长度参考文献

算法

全部折叠

胭脂得分

面向回忆的替代评估(ROUGE)评分算法<一个href="//www.tatmou.com/au/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">[1]计算候选文档和参考文档集合之间的相似性。使用ROUGE评分来评估文档翻译和摘要模型的质量。

N-gram共生统计(ROUGE-N)

给定n元长度n的ROUGE-N度量<年代pan class="emphasis">参考文件由

ROUGE-N (候选人,参考 r 参考 语法 r 语法,候选人 r 参考 numNgrams r

的元素r<年代ub>我是参考文件中的句子,<年代pan class="inlineequation"> 语法 候选人 指定的n-gram出现在候选文档中的次数和numNgrams(右<年代ub>我)在指定的参考句中n-g的数量是多少r<年代ub>我

对于多引用文档集,ROUGE-N度量由

ROUGE-N(候选人,引用)= m 一个 x k ROUGE-N 候选人,引用 k

要使用ROUGE-N度量,请设置“ROUGEMethod”选项“字格”

最长公共子序列(ROUGE-L)

给定一个句子<年代pan class="inlineequation"> d w 1 ... w 和一个句子年代,其中元素年代<年代ub>我对应字,子序列<年代pan class="inlineequation"> w 1 ... w k 是一个<年代pan class="emphasis">公共子序列d年代如果<年代pan class="inlineequation"> w j 年代 1 ... 年代 n 为<年代pan class="inlineequation"> j 1 ... k 和<年代pan class="inlineequation"> 1 < < k ,其中的元素年代句子中的单词是and吗k为子序列的长度。的子序列<年代pan class="inlineequation"> w 1 ... w k LCS是否为最长公共子序列k是最大的。

给定一个候选文档和一个引用文档<年代pan class="emphasis">联盟子序列的长度是

l C 年代 候选人 参考 r 参考 w | w LCS 候选人 r

在哪里<年代pan class="inlineequation"> LCS 候选人 r 候选文档和句子中的最长公共子序列集r<年代ub>我参考文档。

ROUGE-L度量是F-score度量。要计算它,首先计算给出的召回率和准确率分数

R lcs 候选人 参考 r 参考 | LCS 候选人,r | numWords 参考

P lcs 候选人 参考 r 参考 | LCS 候选人,r | numWords 候选人

然后,在候选文档和<年代pan class="emphasis">参考文件由f评分测量给出

ROUGE-L 候选人 参考 1 + β 2 R lcs 候选人 参考 P lcs 候选人 参考 R lcs 候选人 参考 + β 2 P lcs 候选人 参考

的参数<年代pan class="inlineequation"> β 控制准确度和召回率的相对重要性。因为"胭脂"给人留下了回忆<年代pan class="inlineequation"> β 通常设置为高值。

对于多引用文档集,ROUGE-L度量由

ROUGE-L(候选人,引用)= m 一个 x k ROUGE-L 候选人,引用 k

要使用ROUGE-L度量,请设置“ROUGEMethod”选项“longest-common-subsequences”

加权最长公共子序列(ROUGE-W)

给定一个加权函数f这样f有财产f (x + y) > f (x) + f (y)对于任何正整数xy,定义<年代pan class="inlineequation"> WLCS 候选人 参考 为候选文档与单个参考文档中通过加权函数评分的最长连续匹配的长度f.有关计算此值的详细信息,请参见<一个href="//www.tatmou.com/au/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">[1].

ROUGE-W是一个F-score度量,它要求召回率和精度分数

R wlcs 候选人 参考 f 1 WLCS 候选人 参考 f numWords 参考

P wlcs 候选人 参考 f 1 WLCS 候选人 参考 f numWords 候选人

候选文档和候选文档之间的ROUGE-W度量<年代pan class="emphasis">参考文件由f评分测量给出

ROUGE-W 候选人 参考 1 + β 2 R wlcs 候选人 参考 P wlcs 候选人 参考 R wlcs 候选人 参考 + β 2 P wlcs 候选人 参考

的参数<年代pan class="inlineequation"> β 控制准确度和召回率的相对重要性。因为"胭脂"给人留下了回忆<年代pan class="inlineequation"> β 通常设置为高值。

对于多个参考文档,ROUGE-W度量由

ROUGE-W(候选人,引用)= m 一个 x k ROUGE-W 候选人,引用 k

要使用ROUGE-W度量,请设置“ROUGEMethod”选项“weighted-longest-common-subsequences”

跳过双格拉姆共现统计

一个<年代pan class="emphasis">skip-bigram是句子中允许任意间隔的有序单词对。也就是说,给定一个句子<年代pan class="inlineequation"> c c 1 ... c 从候选文档,其中的元素c<年代ub>ij对应于句子中的单词,这对单词<年代pan class="inlineequation"> c j 1 c j 2 是一个<年代pan class="emphasis">skip-bigram如果<年代pan class="inlineequation"> j 1 < j 2

ROUGE-S度量是一个f分数度量。要计算它,首先计算给出的召回率和准确率分数

R skip2 候选人 参考 r 参考 skip-bigram r skip-bigram 候选人 r 参考 numSkipBigrams r

P skip2 候选人 参考 r 参考 skip-bigram r skip-bigram 候选人 c 候选人 numSkipBigrams c

的元素r<年代ub>我c<年代ub>我分别为参考文档和候选文档中的句子,<年代pan class="inlineequation"> skip-bigram 候选人 指定的跳过二元组在候选文档中出现的次数,和numSkipBigrams (s)句子中省略双格的数量是多少年代

然后,在候选文档和<年代pan class="emphasis">参考文件由f评分测量给出

ROUGE-S 候选人 参考 1 + β 2 R skip2 候选人 参考 P skip2 候选人 参考 R skip2 候选人 参考 + β 2 P skip2 候选人 参考

对于多引用文档集,ROUGE-S度量由

ROUGE-S(候选人,引用)= m 一个 x k ROUGE-S 候选人,引用 k

要使用ROUGE-S度量,请设置“ROUGEMethod”选项“skip-bigrams”

跳过双格拉姆和非双格拉姆共现统计

为了在ROUGE-S度量中也包含unigram共现统计,请将unigram计数引入ROUGE-S的召回和精度分数中。这相当于在候选和引用文档中包含开始令牌,因为

skip-bigram r skip-bigram 候选人) + unigram r unigram 候选人 skip-bigram r + skip-bigram 候选人 +

在哪里计数(unigram候选人)指定的unigram在候选文档中出现的次数,和<年代pan class="inlineequation"> r + 和<年代pan class="inlineequation"> 候选人 + 分别表示引用句子和用start标记增强的候选文档。

对于多引用文档集,ROUGE-SU度量由

ROUGE-SU(候选人,引用)= m 一个 x k ROUGE-S 候选人 + 、引用 k +

在哪里<年代pan class="inlineequation"> 参考 + 是引用文档,其中的句子用开始标记增强。

要使用ROUGE-SU度量,请设置“ROUGEMethod”选项“skip-bigrams-and-unigrams”

参考文献

林[1],Chin-Yew。"胭脂:一种自动评估摘要的软件包"在文本摘要分支, 74 - 81页。2004.

另请参阅

|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">

介绍了R2020a