文档帮助中心文档
从文档中提取摘要
摘要= extractSummary(文档)
(总结,成绩)= extractSummary(文档)
(总结,成绩)= extractSummary(文档名称、值)
例子
总结= extractSummary (文档)选择输入文档的子集作为摘要,并将其作为tokenizedDocument数组中。
总结= extractSummary (文档)
总结
文档
tokenizedDocument
[总结,分数) = extractSummary (文档)还返回用于选择摘要文档的重要性分数。在这种情况下,分数(我)表示总结(我).
[总结,分数) = extractSummary (文档)
分数
分数(我)
总结(我)
[总结,分数) = extractSummary (文档,名称,值)使用一个或多个名称-值对参数指定其他选项。
[总结,分数) = extractSummary (文档,名称,值)
名称,值
全部折叠
创建一个标记化文档数组。
str = [“那只敏捷的棕色狐狸跳过了那只懒狗。”“狐狸跳过了狗。”“懒狗看见一只狐狸在跳。”“好像有动物在跳别的动物。”有敏捷的动物,也有懒惰的动物];文件= tokenizedDocument (str);
属性提取文档的摘要extractSummary函数。默认情况下,该函数选择输入文档的1/10,进行四舍五入。
extractSummary
那只敏捷的棕色狐狸跳过了那只懒狗。
要指定更大的摘要,请使用“SummarySize”选择。提取一个包含三个文档的摘要。
“SummarySize”
摘要= extractSummary(文档,“SummarySize”3)
那只敏捷的棕色狐狸跳过了那只懒狗。7令牌:狐狸跳过了狗。9记号:似乎有动物跳来跳去。
str = [“那只敏捷的棕色狐狸跳过了那只懒狗。”“狐狸跳过了狗。”“懒狗看见一只狐狸在跳。”“好像有动物在其他动物身上跳来跳去。”有敏捷的动物,也有懒惰的动物];文件= tokenizedDocument (str);
提取一个包含三个文档的摘要。第二个输出分数包含摘要文档重要性分数。
(总结,成绩)= extractSummary(文档,“SummarySize”3)
那只敏捷的棕色狐狸跳过了那只懒狗。10个标记:似乎有动物跳过其他动物。7令牌:狐狸跳过了狗。
成绩=3×10.2426 0.2174 0.1911
用条形图将分数形象化。
图酒吧(分数)包含(“总结文件”) ylabel (“分数”)标题(“总结文档的重要性”)
要对单个文档进行总结,请将文档拆分为一个句子数组,并使用extractSummary函数。
创建包含文档的字符串标量。
str =...“有一只敏捷的狐狸。狐狸是棕色的。有一只狗+...”是懒惰。这只狗很懒。狐狸跳过了狗。”+...“那只敏捷的棕色狐狸跳过了那只懒狗。”;
将字符串分割成句子splitSentences函数。
splitSentences
str = splitSentences (str)
str =6 x1字符串“有一只敏捷的狐狸。”“狐狸是棕色的。”“有一只懒狗。”“这只狗很懒。”“狐狸跳过了狗。”“那只敏捷的棕色狐狸跳过了那只懒狗。”
创建包含句子的标记化文档数组。
文件= tokenizedDocument (str)
documents = 6x1 tokenizedDocument: 6 tokens:有一个quick fox。5代币:狐狸是棕色的。8代币:有一只懒惰的狗。这只狗很懒。7令牌:狐狸跳过了狗。10代币:那只敏捷的棕色狐狸跳过了这只懒狗。
从使用的句子中提取摘要extractSummary函数。要返回包含三个文档的摘要,请设置“SummarySize”选项3。要确保摘要文档以与输入文档相同的顺序出现,请设置“OrderBy”选项“位置”.
“OrderBy”
“位置”
摘要= extractSummary(文档,“SummarySize”,3,“OrderBy”,“位置”)
summary = 3x1 tokenizedDocument: 6 token:有一个quick fox。7令牌:狐狸跳过了狗。10代币:那只敏捷的棕色狐狸跳过了这只懒狗。
要将这些句子重新构建为单个文档,请使用joinWords功能,并用the连接句子加入函数。
joinWords
加入
句子= joinWords(总结);summaryStr =加入(句子)
“有一只敏捷的狐狸。狐狸从狗身上跳过去。那只敏捷的棕色狐狸跳过了那只懒狗。”
要删除周围的标点符号,请使用取代函数。
取代
punctuationRight = [“。””、““”“)””:““?”“啊!”];summaryStr =取代(summaryStr,”“+ punctuationRight punctuationRight);punctuationLeft = [”(““”];替换(summaryStr,punctuationLeft + .”“punctuationLeft)
输入文档,指定为tokenizedDocument数组中。
指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家.
的名字
价值
Name1, Value1,…,的家
extractSummary(文档、“ScoringMethod”、“lexrank”)
“lexrank”
ScoringMethod
“textrank”
“麻疹”
用于提取摘要的记分方法,指定为由逗号分隔的对组成“ScoringMethod”以及以下其中之一:
“ScoringMethod”
“textrank”—使用TextRank算法。
“lexrank”—使用LexRank算法。
“麻疹”—MMR算法。
查询
查询文档的MMR评分,指定为逗号分隔对组成“查询”和一个tokenizedDocument标量、字的字符串数组或字符向量的单元格数组。如果“查询”不是一个tokenizedDocument标量,那么它必须是表示单个文档的行向量,其中每个元素都是一个单词。
“查询”
此选项仅在以下情况下有效“ScoringMethod”是“麻疹”.
SummarySize
正
摘要的大小,指定为逗号分隔的对,由“SummarySize”以及以下其中之一:
范围内的标量(0,1)-提取输入文档的指定比例,四舍五入。在本例中是摘要文档的数量装天花板(SummarySize * numDocuments),在那里numDocuments是输入文档的数量。
装天花板(SummarySize * numDocuments)
numDocuments
正整数-提取具有指定文档数量的摘要。如果SummarySize大于或等于输入文档的个数,则函数返回按“OrderBy”选择。
正-返回按排序的输入文档“OrderBy”选择。
数据类型:双
双
OrderBy
“分数”
摘要中文档的顺序,指定为逗号分隔对,由“OrderBy”以及以下其中之一:
“分数”-根据他们的分数订购文件“ScoringMethod”选择。
“位置”维护文档的输入顺序。
提取的摘要,返回为tokenizedDocument数组中。摘要是。的子集文档,并根据“OrderBy”选择。
摘要文档分数,作为矢量返回,其中分数(我)比分是多少j该摘要文件根据“ScoringMethod”选择。分数是根据“OrderBy”选择。
j
tokenizedDocument|bleuEvaluationScore|rougeEvaluationScore|bm25Similarity|cosineSimilarity|textrankScores|lexrankScores|mmrScores|rakeKeywords|textrankKeywords
bleuEvaluationScore
rougeEvaluationScore
bm25Similarity
cosineSimilarity
textrankScores
lexrankScores
mmrScores
rakeKeywords
textrankKeywords
この例の変更されたバージョンがあります。編集された方の例を開きますか吗?
次のMATLABコマンドに対応するリンクがクリックされました。
コマンドをMATLABコマンドウィンドウに入力して実行してください。WebブラウザーはMATLABコマンドをサポートしていません。
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系