extractSummary
语法
描述
例子
总结文件
创建一个标记化文档数组。
STR = [“敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过了狗。”“懒狗看见一只狐狸在跳。”“似乎有动物在跳其他动物。”“有敏捷的动物和懒惰的动物”];documents = tokenizedDocument(str);
方法提取文档的摘要extractSummary
函数。默认情况下,该函数选择1/10的输入文档,四舍五入。
summary = extractSummary(文档)
那只敏捷的棕色狐狸跳过了那只懒惰的狗。
要指定更大的摘要,请使用“SummarySize”
选择。提取一个由三个文档组成的摘要。
summary = extractSummary(文档,“SummarySize”3)
那只敏捷的棕色狐狸跳过了那只懒狗。7代币:狐狸跳过了狗。9代币:似乎有动物在跳其他动物。
评估文件的重要性
创建一个标记化文档数组。
STR = [“敏捷的棕色狐狸跳过了懒惰的狗。”“狐狸跳过了狗。”“懒狗看见一只狐狸在跳。”“好像有动物从其他动物身上跳过去。”“有敏捷的动物和懒惰的动物”];documents = tokenizedDocument(str);
提取一个由三个文档组成的摘要。第二个输出分数
包含摘要文档重要性分数。
[summary,scores] = extractSummary(文档,“SummarySize”3)
那只敏捷的棕色狐狸跳过了那只懒狗。10个代币:似乎有动物跳过其他动物。7代币:狐狸跳过了狗。
成绩=3×10.2426 0.2174 0.1911
在柱状图中可视化分数。
图表栏(scores)“总结文件”) ylabel (“分数”)标题(“摘要文件的重要性”)
句子级别总结
若要总结单个文档,请将文档拆分为句子数组,然后使用extractSummary
函数。
创建包含文档的字符串标量。
str =...“有一只敏捷的狐狸。狐狸是棕色的。有一只狗。+...”是懒惰。这只狗很懒。狐狸跳过了狗。”+...“敏捷的棕色狐狸跳过了懒惰的狗。”;
属性将字符串拆分为句子splitSentences
函数。
str = splitsentence (str)
str =6 x1字符串“有一只敏捷的狐狸。”“狐狸是棕色的。”“有一只懒惰的狗。”“狗很懒。”“狐狸跳过了狗。”“敏捷的棕色狐狸跳过了懒惰的狗。”
创建一个包含句子的标记化文档数组。
documents = tokenizedDocument(str)
documents = 6x1 tokenizedDocument: 6个token:有一只敏捷的狐狸。5个标记:狐狸是棕色的。8代币:有一只懒惰的狗。6代币:这只狗很懒。7代币:狐狸跳过了狗。10个token:敏捷的棕色狐狸跳过了懒惰的狗。
从句子中提取一个摘要extractSummary
函数。若要返回包含三个文档的摘要,请设置“SummarySize”
选项3。为确保摘要文档以与输入文档相同的顺序显示,请设置“OrderBy”
选项“位置”
.
summary = extractSummary(文档,“SummarySize”3,“OrderBy”,“位置”)
summary = 3x1 tokenizedDocument: 6 token:有一只敏捷的狐狸。7代币:狐狸跳过了狗。10个token:敏捷的棕色狐狸跳过了懒惰的狗。
方法将这些句子重新构造为单个文档,将文档转换为字符串joinWords
的功能和连接句子加入
函数。
句子= joinWords(摘要);summaryStr = join(句子)
summaryStr = "有一只敏捷的狐狸。狐狸跳过了狗。敏捷的棕色狐狸跳过了懒惰的狗。”
若要删除周围的标点符号字符,请使用取代
函数。
标点= [“。””、““”“)””:““?”“啊!”];summaryStr = replace(" "+ punctuationRight punctuationRight);标点左= [”(““”];summaryStr = replace(summaryStr,标点左+" "punctuationLeft)
summaryStr = "有一只敏捷的狐狸。狐狸跳过了狗。敏捷的棕色狐狸跳过了懒惰的狗。”
输入参数
文档
- - - - - -输入文档
tokenizedDocument
数组
输入文档,指定为tokenizedDocument
数组中。
名称-值参数
指定可选参数对为Name1 = Value1,…,以=家
,在那里名字
参数名称和价值
对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。
在R2021a之前,使用逗号分隔每个名称和值,并将其括起来名字
在报价。
例子:extractSummary(文档、“ScoringMethod”、“lexrank”)
摘自文档
并将计分方法选项设置为“lexrank”
.
ScoringMethod
- - - - - -评分法
“textrank”
(默认)|“lexrank”
|“麻疹”
用于提取摘要的评分方法,指定为由逗号分隔的对组成“ScoringMethod”
和以下其中之一:
“textrank”
—使用TextRank算法。“lexrank”
—使用LexRank算法。“麻疹”
—使用MMR算法。
查询
- - - - - -MMR评分查询文档
tokenizedDocument
标量|字符串数组|字符向量的单元格数组
MMR评分的查询文档,指定为逗号分隔的对,由“查询”
和一个tokenizedDocument
标量,单词的字符串数组或字符向量的单元格数组。如果“查询”
不是一个tokenizedDocument
标量,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。
此选项仅在以下情况下有效“ScoringMethod”
是“麻疹”
.
SummarySize
- - - - - -摘要大小
0.1(默认)|在(0,1)范围内的标量|正整数|正
摘要的大小,指定为逗号分隔的对,由“SummarySize”
和以下其中之一:
范围内的标量(0,1)-提取输入文档的指定比例,四舍五入。在本例中,是摘要文档的数量
装天花板(SummarySize * numDocuments)
,在那里numDocuments
是输入文档的数量。正整数-提取具有指定文档数量的摘要。如果
SummarySize
大于或等于输入文档的数量,则该函数返回根据“OrderBy”
选择。正
—返回按顺序排序的输入文档“OrderBy”
选择。
数据类型:双
OrderBy
- - - - - -摘要文件的顺序
“分数”
(默认)|“位置”
摘要中的文档顺序,指定为逗号分隔的对,由“OrderBy”
和以下其中之一:
“分数”
-按文件的分数排序“ScoringMethod”
选择。“位置”
-维护文档输入顺序。
输出参数
版本历史
R2020a中引入
Beispiel offnen
Sie haben eine geänderte版本dieses Beispiels。Möchten Sie dieses Beispiel mit Ihren Änderungen öffnen?
MATLAB-Befehl
你的身体和身体之间的联系MATLAB-Befehl
Führen Sie den Befehl durch Eingabe in das MATLAB-Befehlsfenster aus。web浏览器unterstützen keine MATLAB-Befehle。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。