主要内容

摘录

从文档中提取摘要

描述

示例

总结= zhothsummary(文件选择输入文档的子集用作摘要,并将其返回为一个令人畏缩的鳕文阵列。

示例

[总结得分] =提取物ummary(文件还返回用于选择摘要文档的重要性分数。在这种情况下,分数(i)代表得分摘要(i)

示例

[总结得分] =提取物ummary(文件名称,价值使用一个或多个名称值对参数指定其他选项。

例子

崩溃

创建一系列令牌文档。

str = [“快速的棕色狐狸跳过懒狗。”“狐狸跳过狗。”“懒狗看到了狐狸跳跃。”“似乎有动物跳跃其他动物。”“有快速的动物和懒惰的动物”];文档=令授权鳕(str);

使用该文件提取文件摘要摘录功能。默认情况下,函数选择1/10输入文档,舍入。

摘要=提取物(文件)
摘要= tokenizeddocument:10令牌:快速的棕色狐狸跳过懒狗。

要指定更大的摘要,请使用'摘要'选项。提取三文档摘要。

摘要= zhothsummary(文件,'摘要'3,3)
摘要= 3x1令牌地区:10令牌:快速的棕色狐狸跳过懒狗。7令牌:狐狸跳过狗。9令牌:似乎有动物跳跃其他动物。

创建一系列令牌文档。

str = [“快速的棕色狐狸跳过懒狗。”“狐狸跳过狗。”“懒狗看到了狐狸跳跃。”“似乎有动物跳过其他动物。”“有快速的动物和懒惰的动物”];文档=令授权鳕(str);

提取三文档摘要。第二个输出得分包含摘要文档重要性分数。

[摘要,分数] =提取物ummary(文件,'摘要'3,3)
摘要= 3x1令牌地区:10令牌:快速的棕色狐狸跳过懒狗。10令牌:似乎有动物跳过其他动物。7令牌:狐狸跳过狗。
得分=3×10.2426 0.2174 0.1911

可视化条形图中的分数。

图酒吧(分数)Xlabel(“摘要文件”)ylabel(“得分”)标题(“摘要文件重要性”

图包含轴。标题摘要文档重要性的轴包含类型栏的对象。

要总结单个文档,将文档拆分为句子数组,并使用摘录功能。

创建包含该文档的字符串标量。

str =......“有一个快速的狐狸。狐狸是棕色的。有一只狗是”+......“懒惰。狗非常懒惰。狐狸跳过狗。”+......“快速的棕色狐狸跳过懒狗。”;

使用该字符串将字符串拆分为句子诽谤功能。

str = splitsentences(str)
str =6x1字符串“有一个快速的狐狸。”“狐狸是棕色的。”“有一只懒惰的狗。”“狗非常懒惰。”“狐狸跳过狗。”“快速的棕色狐狸跳过懒狗。”

创建包含句子的令牌化文档数组。

文档= tokenizeddocument(str)
文档= 6x1令牌Document:6个令牌:有一个快速的狐狸。5令牌:狐狸是棕色的。8令牌:有一只懒惰的狗。6令牌:狗非常懒惰。7令牌:狐狸跳过狗。10令牌:快速的棕色狐狸跳过懒狗。

使用句子中提取摘要摘录功能。要返回包含三项文件的摘要,请设置'摘要'选项为3.确保摘要文档与输入文档相同的顺序显示,设置'orderby'选择“位置”

摘要= zhothsummary(文件,'摘要',3,'orderby'“位置”
摘要= 3x1令叫鳕文件:6个令牌:有一个快速的狐狸。7令牌:狐狸跳过狗。10令牌:快速的棕色狐狸跳过懒狗。

要将句子重建为单个文档,请使用该文档将文档转换为字符串ingwords.使用和加入句子加入功能。

句子= or omwords(摘要);summarystr =加入(句子)
summarystr =“有一个快速的狐狸。狐狸跳过狗。快速的棕色狐狸跳过懒狗。”

要删除周围的标点符号,请使用替换功能。

punctundight = [“。”“,”“)”“:”“?”“!”];summarystr =替换(summarystr,+ punctundight,punctundright);Punctonalleft = [“(”];summarystr = replace(summarystr,punctondleft +,点击展示)
summarystr =“有一个快速的狐狸。狐狸跳过狗。快速的棕色狐狸跳过懒狗。”

输入参数

崩溃

输入文档,指定为a令人畏缩的鳕文阵列。

名称值对参数

指定可选的逗号分离对名称,价值论点。名称是参数名称和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

示例:提取物(文件,'scoringmethod','lexrank')提取摘要文件并设置评分方法选项'lexrank'

用于提取综准的评分方法,指定为逗号分隔对组成'scoringmethod'和以下之一:

  • 'textrank'- 使用textrank算法。

  • 'lexrank'- 使用LexRank算法。

  • 'mmr'- 使用MMR算法。

用于MMR评分的查询文档,指定为逗号分隔的对组成'query'A.令人畏缩的鳕文标量,字符串数组或字符向量的单元格数组。如果'query'不是A.令人畏缩的鳕文标量,那么它必须是表示单个文档的行向量,其中每个元素是一个单词。

此选项只有效果'scoringmethod''mmr'

摘要大小,指定为逗号分隔对组成'摘要'和以下之一:

  • 标量在范围内(0,1) - 提取指定的输入文档比例,舍入。在这种情况下,摘要文档的数量CEIL(摘要* NumFocuments),在哪里numfocuments.是输入文档的数量。

  • 正整数 - 提取具有指定数量的文档的摘要。如果摘要大于或等于输入文档的数量,那么函数返回根据的输入文档按照'orderby'选项。

    INF.- 返回根据的输入文档'orderby'选项。

数据类型:双人间

摘要中的文件顺序,指定为逗号分隔的配对组成'orderby'和以下之一:

  • '得分'- 根据他们的分数订购文件'scoringmethod'选项。

  • “位置”- 从输入中维护文档订单。

输出参数

崩溃

提取的摘要,返回为a令人畏缩的鳕文阵列。摘要是一个子集文件,并根据'orderby'选项。

摘要文档分数,作为向量返回,在哪里分数(i)是的分数j周章摘要文件'scoringmethod'选项。根据该分数根据'orderby'选项。

在R2020A中介​​绍