extractSummary

从文档中提取摘要

折叠所有页面

语法

摘要= extractSummary(文档)

(总结,成绩)= extractSummary(文档)

(总结,成绩)= extractSummary(文档名称、值)

描述

例子

总结= extractSummary (文档）选择输入文档的子集作为摘要，并将其作为tokenizedDocument数组中。

例子

［总结，分数) = extractSummary (文档）还返回用于选择摘要文档的重要性分数。在这种情况下,分数(我)表示总结(我)．

例子

［总结，分数) = extractSummary (文档，名称,值）使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

总结文件

打开生活的脚本

创建一个标记化文档数组。

str = [“那只敏捷的棕色狐狸跳过了那只懒狗。”“狐狸跳过了狗。”“懒狗看见一只狐狸在跳。”“好像有动物在跳别的动物。”有敏捷的动物，也有懒惰的动物];文件= tokenizedDocument (str);

属性提取文档的摘要extractSummary函数。默认情况下，该函数选择输入文档的1/10，进行四舍五入。

摘要= extractSummary(文档)

那只敏捷的棕色狐狸跳过了那只懒狗。

要指定更大的摘要，请使用“SummarySize”选择。提取一个包含三个文档的摘要。

摘要= extractSummary(文档,“SummarySize”3)

那只敏捷的棕色狐狸跳过了那只懒狗。7令牌:狐狸跳过了狗。9记号:似乎有动物跳来跳去。

评估文件的重要性

打开生活的脚本

创建一个标记化文档数组。

str = [“那只敏捷的棕色狐狸跳过了那只懒狗。”“狐狸跳过了狗。”“懒狗看见一只狐狸在跳。”“好像有动物在其他动物身上跳来跳去。”有敏捷的动物，也有懒惰的动物];文件= tokenizedDocument (str);

提取一个包含三个文档的摘要。第二个输出分数包含摘要文档重要性分数。

(总结,成绩)= extractSummary(文档,“SummarySize”3)

那只敏捷的棕色狐狸跳过了那只懒狗。10个标记:似乎有动物跳过其他动物。7令牌:狐狸跳过了狗。

成绩=3×10.2426 0.2174 0.1911

用条形图将分数形象化。

图酒吧(分数)包含(“总结文件”) ylabel (“分数”)标题(“总结文档的重要性”）

图中包含一个轴对象。标题为“Summary Document Importance”的axes对象包含一个类型为bar的对象。

句子层面上总结

打开生活的脚本

要对单个文档进行总结，请将文档拆分为一个句子数组，并使用extractSummary函数。

创建包含文档的字符串标量。

str =．..“有一只敏捷的狐狸。狐狸是棕色的。有一只狗+．..”是懒惰。这只狗很懒。狐狸跳过了狗。”+．..“那只敏捷的棕色狐狸跳过了那只懒狗。”；

将字符串分割成句子splitSentences函数。

str = splitSentences (str)

str =6 x1字符串“有一只敏捷的狐狸。”“狐狸是棕色的。”“有一只懒狗。”“这只狗很懒。”“狐狸跳过了狗。”“那只敏捷的棕色狐狸跳过了那只懒狗。”

创建包含句子的标记化文档数组。

文件= tokenizedDocument (str)

documents = 6x1 tokenizedDocument: 6 tokens:有一个quick fox。5代币:狐狸是棕色的。8代币:有一只懒惰的狗。这只狗很懒。7令牌:狐狸跳过了狗。10代币:那只敏捷的棕色狐狸跳过了这只懒狗。

从使用的句子中提取摘要extractSummary函数。要返回包含三个文档的摘要，请设置“SummarySize”选项3。要确保摘要文档以与输入文档相同的顺序出现，请设置“OrderBy”选项“位置”．

摘要= extractSummary(文档,“SummarySize”,3，“OrderBy”，“位置”）

summary = 3x1 tokenizedDocument: 6 token:有一个quick fox。7令牌:狐狸跳过了狗。10代币:那只敏捷的棕色狐狸跳过了这只懒狗。

要将这些句子重新构建为单个文档，请使用joinWords功能，并用the连接句子加入函数。

句子= joinWords(总结);summaryStr =加入(句子)

“有一只敏捷的狐狸。狐狸从狗身上跳过去。那只敏捷的棕色狐狸跳过了那只懒狗。”

要删除周围的标点符号，请使用取代函数。

punctuationRight = [“。””、““”“)””:““?”“啊!”];summaryStr =取代(summaryStr,”“+ punctuationRight punctuationRight);punctuationLeft = [”(““”];替换(summaryStr,punctuationLeft + .”“punctuationLeft)

“有一只敏捷的狐狸。狐狸从狗身上跳过去。那只敏捷的棕色狐狸跳过了那只懒狗。”

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:extractSummary(文档、“ScoringMethod”、“lexrank”)摘录文档并将评分方法选项设置为“lexrank”．

`ScoringMethod`- - - - - -评分法
`“textrank”`(默认)|`“lexrank”`|`“麻疹”`

用于提取摘要的记分方法，指定为由逗号分隔的对组成“ScoringMethod”以及以下其中之一:

“textrank”—使用TextRank算法。
“lexrank”—使用LexRank算法。
“麻疹”—MMR算法。

`查询`- - - - - -MMR评分查询文档
`tokenizedDocument`标量|字符串数组|字符向量的单元格数组

查询文档的MMR评分，指定为逗号分隔对组成“查询”和一个tokenizedDocument标量、字的字符串数组或字符向量的单元格数组。如果“查询”不是一个tokenizedDocument标量，那么它必须是表示单个文档的行向量，其中每个元素都是一个单词。

此选项仅在以下情况下有效“ScoringMethod”是“麻疹”．

`SummarySize`- - - - - -大小的总结
０.１(默认)|量程(0,1)内的标量|正整数|`正`

摘要的大小，指定为逗号分隔的对，由“SummarySize”以及以下其中之一:

范围内的标量(0,1)-提取输入文档的指定比例，四舍五入。在本例中是摘要文档的数量装天花板(SummarySize * numDocuments),在那里numDocuments是输入文档的数量。
正整数-提取具有指定文档数量的摘要。如果SummarySize大于或等于输入文档的个数，则函数返回按“OrderBy”选择。
正-返回按排序的输入文档“OrderBy”选择。

数据类型:双

`OrderBy`- - - - - -摘要文件的顺序
`“分数”`(默认)|`“位置”`

摘要中文档的顺序，指定为逗号分隔对，由“OrderBy”以及以下其中之一:

“分数”-根据他们的分数订购文件“ScoringMethod”选择。
“位置”维护文档的输入顺序。

输出参数

全部折叠

`总结`——提取总结
`tokenizedDocument`数组

提取的摘要，返回为tokenizedDocument数组中。摘要是。的子集文档，并根据“OrderBy”选择。

`分数`-汇总文件分数
向量

摘要文档分数，作为矢量返回，其中分数(我)比分是多少j该摘要文件根据“ScoringMethod”选择。分数是根据“OrderBy”选择。

另请参阅

主题

介绍了R2020a

extractSummary

语法

描述

例子

总结文件

评估文件的重要性

句子层面上总结

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值参数

`ScoringMethod`- - - - - -评分法
`“textrank”`(默认)|`“lexrank”`|`“麻疹”`

`查询`- - - - - -MMR评分查询文档
`tokenizedDocument`标量|字符串数组|字符向量的单元格数组

`SummarySize`- - - - - -大小的总结
０.１(默认)|量程(0,1)内的标量|正整数|`正`

`OrderBy`- - - - - -摘要文件的顺序
`“分数”`(默认)|`“位置”`

输出参数

`总结`——提取总结
`tokenizedDocument`数组

`分数`-汇总文件分数
向量

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

extractSummary

语法

描述

例子

总结文件

评估文件的重要性

句子层面上总结

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

ScoringMethod- - - - - -评分法“textrank”(默认)|“lexrank”|“麻疹”

查询- - - - - -MMR评分查询文档tokenizedDocument标量|字符串数组|字符向量的单元格数组

SummarySize- - - - - -大小的总结０.１(默认)|量程(0,1)内的标量|正整数|正

OrderBy- - - - - -摘要文件的顺序“分数”(默认)|“位置”

输出参数

总结——提取总结tokenizedDocument数组

分数-汇总文件分数向量

另请参阅

主题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`ScoringMethod`- - - - - -评分法
`“textrank”`(默认)|`“lexrank”`|`“麻疹”`

`查询`- - - - - -MMR评分查询文档
`tokenizedDocument`标量|字符串数组|字符向量的单元格数组

`SummarySize`- - - - - -大小的总结
０.１(默认)|量程(0,1)内的标量|正整数|`正`

`OrderBy`- - - - - -摘要文件的顺序
`“分数”`(默认)|`“位置”`

`总结`——提取总结
`tokenizedDocument`数组

`分数`-汇总文件分数
向量