rougeEvaluationScore

使用ROUGE相似度评分评估翻译或摘要

折叠所有页面

语法

分数= rougeEvaluationScore(候选人,引用)

分数= rougeEvaluationScore(候选人、引用名称,值)

描述

面向回忆的给定评估替代研究(ROUGE)评分算法评估候选文档和参考文档集合之间的相似性。使用ROUGE评分来评估文档翻译和摘要模型的质量。

分数= rougeEvaluationScore (<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人，<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">参考文献）返回指定候选文档和引用文档之间的ROUGE分数。默认情况下，该函数计算unigram重叠候选人和参考文献．这也被称为ROUGE-N度规，n格长度为1。有关更多信息，请参见<一个href="//www.tatmou.com/au/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">胭脂得分．

例子

分数= rougeEvaluationScore (<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人，<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">参考文献，<一个href="//www.tatmou.com/au/help/textanalytics/ref/#namevaluepairarguments" class="intrnllnk">名称,值）使用一个或多个名称-值对指定其他选项。

例子

全部折叠

计算相似度

打开生活的脚本

将候选文档指定为tokenizedDocument对象。

str =<年代pan style="color:#A020F0">"快速的棕色狐狸跳过了懒狗"；候选人= tokenizedDocument (str)

那只快速的棕色狐狸跳过了那只懒狗

将引用文档指定为tokenizedDocument数组中。

str = [<年代pan style="color:#A020F0">"那只敏捷的棕色动物跳过了那只懒狗""那只敏捷的棕色狐狸跳过了那只懒狗"];引用= tokenizedDocument (str)

这只敏捷的棕色动物跳过了那只懒狗

计算候选文档和参考文档之间的ROUGE分数。

分数= rougeEvaluationScore(候选人,引用)

分数= 0.8889

语法指定长度

打开生活的脚本

将候选文档指定为tokenizedDocument对象。

str =<年代pan style="color:#A020F0">包含一些词语的简单摘要文件。；候选人= tokenizedDocument (str)

candidate = tokenizedDocument: 7 tokens:包含一些单词的简单摘要文档

将引用文档指定为tokenizedDocument数组中。

str = [<年代pan style="color:#A020F0">“一个简单的文档”"另一份有一些文字的文件"];引用= tokenizedDocument (str)

引用= 2x1 tokenizedDocument: 3个令牌:一个简单的文档5个令牌:另一个带有一些单词的文档

使用默认选项计算候选文档和引用文档之间的ROUGE分数。

分数= rougeEvaluationScore(候选人,引用)

分数= 1

的rougeEvaluationScore函数在默认情况下比较候选文档和引用文档之间的unigram(单令牌)重叠。因为ROUGE分数是基于回忆的度量，如果一个参考文档完全由出现在候选文档中的unigrams组成，那么得到的ROUGE分数就是1。在这个场景中，rougeEvaluationScore函数是不提供信息的。

为了得到更有意义的结果，使用双格表再次计算ROUGE分数“NgramLength”选项2．结果得分小于1，因为每个引用文档都包含在候选文档中没有出现的双字母。

分数= rougeEvaluationScore(候选人、引用<年代pan style="color:#A020F0">“NgramLength”，2)

分数= 0.5000

输入参数

全部折叠

`候选人`- - - - - -<年代pan itemprop="purpose">候选人文档
`tokenizedDocument`标量|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">字符向量的单元格数组

候选文档，指定为tokenizedDocument标量、字符串数组或字符向量的单元格数组。如果候选人不是一个tokenizedDocument标量，那么它必须是表示单个文档的行向量，其中每个元素都是一个单词。

`参考文献`- - - - - -<年代pan itemprop="purpose">参考文档
`tokenizedDocument`数组|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">字符向量的单元格数组

参考文档，指定为tokenizedDocument数组、字符串数组或字符向量的单元格数组。如果参考文献不是一个tokenizedDocument数组，则它必须是表示单个文档的行向量，其中每个元素都是一个单词。要根据多个参考文件进行评估，请使用atokenizedDocument数组中。

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:成绩= rougeEvaluationScore(候选人、引用“ROUGEMethod”,“weighted-subsequences”)指定使用ROUGE方法的加权子序列。

`ROUGEMethod`- - - - - -<年代pan itemprop="purpose">胭脂方法
`“字格”`(默认)|<年代pan itemprop="inputvalue">`“longest-common-subsequences”`|<年代pan itemprop="inputvalue">`“weighted-subsequences”`|<年代pan itemprop="inputvalue">`“skip-bigrams”`|<年代pan itemprop="inputvalue">`“skip-bigrams-and-unigrams”`

ROUGE方法，指定为逗号分隔对，由“ROUGEMethod”以及以下其中之一:

“字格”-使用候选文档和参考文档之间的n-gram重叠来评估ROUGE分数。这也被称为ROUGE-N度量。
“longest-common-subsequences”—使用LCS(最长公共子序列)统计信息评估ROUGE评分。这也被称为ROUGE-L度量。
“weighted-subsequences”—使用加权最长公共子序列统计信息评估ROUGE评分。该方法适用于连续的lcs。这也被称为ROUGE-W度规。
“skip-bigrams”-使用skip-bigram(句子顺序中的任意一对单词)共现统计来评估ROUGE分数。这也被称为ROUGE-S度量。
“skip-bigrams-and-unigrams”-使用跳过双元组和非双元组共现统计数据评估ROUGE得分。这也被称为ROUGE-SU度量。

`NgramLength`- - - - - -<年代pan itemprop="purpose">n元长度
1(默认)|<年代pan itemprop="inputvalue">正整数

n克长度用于“字格”ROUGE方法(ROUGE- n)，指定为逗号分隔的对，由“NgramLength”一个正整数。

如果“ROUGEMethod”选择是不“字格”,那么“NgramLength”期权没有效果。

提示

如果最长的文件<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">参考文献只有不到NgramLength单词，那么得到的ROUGE分数是南．如果<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人只有不到NgramLength单词，则得到的ROUGE分数为零。以确保rougeEvaluationScore返回非常短的文档的非零分数，setNgramLength到小于长度的正整数候选人最长的文件的长度参考文献．

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`SkipDistance`- - - - - -<年代pan itemprop="purpose">跳跃距离
4(默认)|<年代pan itemprop="inputvalue">正整数

跳过距离用于“skip-bigrams”和“skip-bigrams-and-unigrams”ROUGE方法(ROUGE- s和ROUGE- su)，指定为逗号分隔的对，由“SkipDistance”一个正整数。

如果“ROUGEMethod”选择是不“skip-bigrams”或“skip-bigrams-and-unigrams”,那么“SkipDistance”期权没有效果。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

输出参数

全部折叠

`分数`——胭脂得分
标量

ROUGE分数，返回为范围[0,1]或的标量值南．

ROUGE的分数接近于零，表明两者之间的相似性很差<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_32643ba4-f701-4738-9fdc-6b1deea7ad02" class="intrnllnk">候选人和<一个href="//www.tatmou.com/au/help/textanalytics/ref/#function_rougeEvaluationScore_sep_mw_67869154-7ea6-48fb-b27d-2dd01b3a9f16" class="intrnllnk">参考文献．ROUGE分数接近1，表明两者之间非常相似候选人和参考文献．如果候选人和其中一个参考文档是一样的吗分数是1。如果候选人和参考文献都是空文档，那么得到的ROUGE分数是南．

提示

如果最长的文件参考文献只有不到NgramLength单词，那么得到的ROUGE分数是南．如果候选人只有不到NgramLength单词，则得到的ROUGE分数为零。以确保rougeEvaluationScore返回非常短的文档的非零分数，setNgramLength到小于长度的正整数候选人最长的文件的长度参考文献．

算法

全部折叠

胭脂得分

面向回忆的替代评估(ROUGE)评分算法<一个href="//www.tatmou.com/au/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">［１］计算候选文档和参考文档集合之间的相似性。使用ROUGE评分来评估文档翻译和摘要模型的质量。

N-gram共生统计(ROUGE-N)

给定n元长度n的ROUGE-N度量<年代pan class="emphasis">单参考文件由

${ROUGE-N}_{单} (候选人,参考）＝ \frac{\sum_{r_{我} \in 参考} \sum_{语法 \in r_{我}} 数（语法,候选人）}{\sum_{r_{我} \in 参考} numNgrams （ r_{我} ）} ，$

的元素r<年代ub>我是参考文件中的句子，<年代pan class="inlineequation"> $数（语法，候选人）$ 指定的n-gram出现在候选文档中的次数和numNgrams(右<年代ub>我）在指定的参考句中n-g的数量是多少r<年代ub>我．

对于多引用文档集，ROUGE-N度量由

$ROUGE-N(候选人，引用)= m 一个 x_{k} ｛ {ROUGE-N}_{单} （ {候选人,引用}_{k} ）｝．$

要使用ROUGE-N度量，请设置“ROUGEMethod”选项“字格”．

最长公共子序列(ROUGE-L)

给定一个句子<年代pan class="inlineequation"> $d ＝［ w_{1} ，．.. ， w_{米} ］$ 和一个句子年代，其中元素年代<年代ub>我对应字，子序列<年代pan class="inlineequation"> $［ w_{我_{1}} ，．.. ， w_{我_{k}} ］$ 是一个<年代pan class="emphasis">公共子序列的d和年代如果<年代pan class="inlineequation"> $w_{我_{j}^{”}} \in ｛ {年代}_{1} ，．.. ， {年代}_{n} ｝$ 为<年代pan class="inlineequation"> $j ＝ 1 ，．.. ， k$ 和<年代pan class="inlineequation"> $我_{1} < \dots < 我_{k}$ ，其中的元素年代句子中的单词是and吗k为子序列的长度。的子序列<年代pan class="inlineequation"> $［ w_{我_{1}} ，．.. ， w_{我_{k}} ］$ LCS是否为最长公共子序列k是最大的。

给定一个候选文档和一个引用文档<年代pan class="emphasis">联盟子序列的长度是

$l C {年代}_{\cup} （候选人，参考）＝ \underset{r_{我} \in 参考}{\cup} ｛ w | w \in LCS （候选人， r_{我} ）｝，$

在哪里<年代pan class="inlineequation"> $LCS （候选人， r_{我} ）$ 候选文档和句子中的最长公共子序列集r<年代ub>我参考文档。

ROUGE-L度量是F-score度量。要计算它，首先计算给出的召回率和准确率分数

$R_{lcs} （候选人，参考）＝ \frac{\sum_{r_{我} \in 参考} | {LCS}_{\cup} （ {候选人,r}_{我} ） |}{numWords （参考）}$

$P_{lcs} （候选人，参考）＝ \frac{\sum_{r_{我} \in 参考} | {LCS}_{\cup} （ {候选人,r}_{我} ） |}{numWords （候选人）} ．$

然后，在候选文档和<年代pan class="emphasis">单参考文件由f评分测量给出

${ROUGE-L}_{单} （候选人，参考）＝ \frac{（ 1 + β^{2} ） R_{lcs} （候选人，参考） P_{lcs} （候选人，参考）}{R_{lcs} （候选人，参考） + β^{2} P_{lcs} （候选人，参考）} ，$

的参数<年代pan class="inlineequation"> $β$ 控制准确度和召回率的相对重要性。因为"胭脂"给人留下了回忆<年代pan class="inlineequation"> $β$ 通常设置为高值。

对于多引用文档集，ROUGE-L度量由

$ROUGE-L(候选人，引用)= m 一个 x_{k} ｛ {ROUGE-L}_{单} （ {候选人,引用}_{k} ）｝．$

要使用ROUGE-L度量，请设置“ROUGEMethod”选项“longest-common-subsequences”．

加权最长公共子序列(ROUGE-W)

给定一个加权函数f这样f有财产f (x + y) > f (x) + f (y)对于任何正整数x和y,定义<年代pan class="inlineequation"> $WLCS （候选人，参考）$ 为候选文档与单个参考文档中通过加权函数评分的最长连续匹配的长度f．有关计算此值的详细信息，请参见<一个href="//www.tatmou.com/au/help/textanalytics/ref/rougeevaluationscore.html" class="intrnllnk">［１］．

ROUGE-W是一个F-score度量，它要求召回率和精度分数

$R_{wlcs} （候选人，参考）＝ f^{- 1} （ \frac{WLCS （候选人，参考）}{f （ numWords （参考）} ）$

$P_{wlcs} （候选人，参考）＝ f^{- 1} （ \frac{WLCS （候选人，参考）}{f （ numWords （候选人））} ）．$

候选文档和候选文档之间的ROUGE-W度量<年代pan class="emphasis">单参考文件由f评分测量给出

${ROUGE-W}_{单} （候选人，参考）＝ \frac{（ 1 + β^{2} ） R_{wlcs} （候选人，参考） P_{wlcs} （候选人，参考）}{R_{wlcs} （候选人，参考） + β^{2} P_{wlcs} （候选人，参考）} ，$

的参数<年代pan class="inlineequation"> $β$ 控制准确度和召回率的相对重要性。因为"胭脂"给人留下了回忆<年代pan class="inlineequation"> $β$ 通常设置为高值。

对于多个参考文档，ROUGE-W度量由

$ROUGE-W(候选人，引用)= m 一个 x_{k} ｛ {ROUGE-W}_{单} （ {候选人,引用}_{k} ）｝．$

要使用ROUGE-W度量，请设置“ROUGEMethod”选项“weighted-longest-common-subsequences”．

跳过双格拉姆共现统计

一个<年代pan class="emphasis">skip-bigram是句子中允许任意间隔的有序单词对。也就是说，给定一个句子<年代pan class="inlineequation"> $c_{我} ＝［ c_{我 1} ，．.. ， c_{我米} ］$ 从候选文档，其中的元素c<年代ub>ij对应于句子中的单词，这对单词<年代pan class="inlineequation"> $［ c_{我 j_{1}^{”}} ， c_{我 j_{2}^{”}} ］$ 是一个<年代pan class="emphasis">skip-bigram如果<年代pan class="inlineequation"> $j_{1}^{”} < j_{2}^{”}$ ．

ROUGE-S度量是一个f分数度量。要计算它，首先计算给出的召回率和准确率分数

$R_{skip2} （候选人，参考）＝ \frac{\sum_{r_{我} \in 参考} \sum_{skip-bigram \in r_{我}} 数（ skip-bigram ，候选人）}{\sum_{r_{我} \in 参考} numSkipBigrams （ r_{我} ）}$

$P_{skip2} （候选人，参考）＝ \frac{\sum_{r_{我} \in 参考} \sum_{skip-bigram \in r_{我}} 数（ skip-bigram ，候选人）}{\sum_{c_{我} \in 候选人} numSkipBigrams （ c_{我} ）} ．$

的元素r<年代ub>我和c<年代ub>我分别为参考文档和候选文档中的句子，<年代pan class="inlineequation"> $数（ skip-bigram ，候选人）$ 指定的跳过二元组在候选文档中出现的次数，和numSkipBigrams (s)句子中省略双格的数量是多少年代．

然后，在候选文档和<年代pan class="emphasis">单参考文件由f评分测量给出

${ROUGE-S}_{单} （候选人，参考）＝ \frac{（ 1 + β^{2} ） R_{skip2} （候选人，参考） P_{skip2} （候选人，参考）}{R_{skip2} （候选人，参考） + β^{2} P_{skip2} （候选人，参考）} ，$

对于多引用文档集，ROUGE-S度量由

$ROUGE-S(候选人，引用)= m 一个 x_{k} ｛ {ROUGE-S}_{单} （ {候选人,引用}_{k} ）｝．$

要使用ROUGE-S度量，请设置“ROUGEMethod”选项“skip-bigrams”．

跳过双格拉姆和非双格拉姆共现统计

为了在ROUGE-S度量中也包含unigram共现统计，请将unigram计数引入ROUGE-S的召回和精度分数中。这相当于在候选和引用文档中包含开始令牌，因为

$\sum_{skip-bigram \in r_{我}} （数（ skip-bigram ，候选人) ） + \sum_{unigram \in r_{我}} （数（ unigram ，候选人）＝ \sum_{skip-bigram \in r_{我}^{+}} （数（ skip-bigram ， {候选人}^{+} ）），$

在哪里计数(unigram候选人)指定的unigram在候选文档中出现的次数，和<年代pan class="inlineequation"> $r_{我}^{+}$ 和<年代pan class="inlineequation"> ${候选人}^{+}$ 分别表示引用句子和用start标记增强的候选文档。

对于多引用文档集，ROUGE-SU度量由

$ROUGE-SU(候选人，引用)= m 一个 x_{k} ｛ {ROUGE-S}_{单} （ {候选人}^{+} {、引用}_{k}^{+} ）｝，$

在哪里<年代pan class="inlineequation"> ${参考}^{+}$ 是引用文档，其中的句子用开始标记增强。

要使用ROUGE-SU度量，请设置“ROUGEMethod”选项“skip-bigrams-and-unigrams”．

参考文献

林[1],Chin-Yew。"胭脂:一种自动评估摘要的软件包"在文本摘要分支, 74 - 81页。2004.

另请参阅

tokenizedDocument|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">bleuEvaluationScore|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">bm25Similarity|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">cosineSimilarity|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">textrankScores|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">lexrankScores|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">mmrScores|<年代pan itemscope itemtype="//www.tatmou.com/help/schema/MathWorksDocPage/SeeAlso" itemprop="seealso">extractSummary

主题

使用注意的顺序翻译

介绍了R2020a

rougeEvaluationScore

语法

描述

例子

计算相似度

语法指定长度

输入参数

`候选人`- - - - - -<年代pan itemprop="purpose">候选人文档
`tokenizedDocument`标量|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">字符向量的单元格数组

`参考文献`- - - - - -<年代pan itemprop="purpose">参考文档
`tokenizedDocument`数组|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">字符向量的单元格数组

名称-值参数

`NgramLength`- - - - - -<年代pan itemprop="purpose">n元长度
1(默认)|<年代pan itemprop="inputvalue">正整数

`SkipDistance`- - - - - -<年代pan itemprop="purpose">跳跃距离
4(默认)|<年代pan itemprop="inputvalue">正整数

输出参数

`分数`——胭脂得分
标量

算法

胭脂得分

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

rougeEvaluationScore

语法

描述

例子

计算相似度

语法指定长度

输入参数

候选人- - - - - -<年代pan itemprop="purpose">候选人文档tokenizedDocument标量|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">字符向量的单元格数组

参考文献- - - - - -<年代pan itemprop="purpose">参考文档tokenizedDocument数组|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">字符向量的单元格数组

名称-值参数

NgramLength- - - - - -<年代pan itemprop="purpose">n元长度1(默认)|<年代pan itemprop="inputvalue">正整数

SkipDistance- - - - - -<年代pan itemprop="purpose">跳跃距离4(默认)|<年代pan itemprop="inputvalue">正整数

输出参数

分数——胭脂得分标量

算法

胭脂得分

参考文献

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`候选人`- - - - - -<年代pan itemprop="purpose">候选人文档
`tokenizedDocument`标量|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">字符向量的单元格数组

`参考文献`- - - - - -<年代pan itemprop="purpose">参考文档
`tokenizedDocument`数组|<年代pan itemprop="inputvalue">字符串数组|<年代pan itemprop="inputvalue">字符向量的单元格数组

`NgramLength`- - - - - -<年代pan itemprop="purpose">n元长度
1(默认)|<年代pan itemprop="inputvalue">正整数

`SkipDistance`- - - - - -<年代pan itemprop="purpose">跳跃距离
4(默认)|<年代pan itemprop="inputvalue">正整数

`分数`——胭脂得分
标量