主要内容

addSentenceDetails

在文档中添加句子编号

描述

使用addSentenceDetails向文档中添加句子信息。

支持英文、日文、德文、韩文金宝app文本。

例子

updatedDocuments= addSentenceDetails (文档中的句子边界文档并更新令牌详细信息。获取句子的细节updatedDocuments,使用tokenDetails

updatedDocuments= addSentenceDetails (文档名称,值使用一个或多个名称-值对参数指定其他选项。

提示

使用addSentenceDetails在使用较低的erasePunctuationnormalizeWordsremoveWords,removeStopWords函数作为addSentenceDetails使用被这些函数删除的信息。

例子

全部折叠

创建一个标记文档数组。

STR = [...这是一个示例文档。它有两句话。”“这份文件只有一句话。”这是另一个示例文档。它还有两句话。”];文档= tokenizedDocument(str);

在使用的文档中添加句子细节addSentenceDetails.函数将语句号添加到返回的表中tokenDetails.查看前几个令牌的更新令牌详细信息。

documents = addSentenceDetails(documents);tdetails = tokenDetails(文档);头(tdetails)
令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1标点符号“它”1 2 1个字母“有”1 2 1个字母

查看第三个文档第二句话的令牌详细信息。

Idx = tdetails。DocumentNumber == 3 &...tdetails。SentenceNumber == 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号en

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。

在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。

例子:“缩写”,["cm" "mm" "in"]指定检测在这些缩略语后面紧跟着句号和大写的句子开头的句子边界。

缩写列表,指定为字符串数组、字符向量、字符向量的单元格数组或表格。

如果缩写是字符串数组、字符向量或字符向量的单元格数组,则函数将它们视为正则缩写。如果下一个单词是一个大写的句子开头,那么函数在结尾句号处中断。该函数忽略缩写字母大小写的任何差异。方法指定句子开头开胃菜名称-值对。

要指定在缩略语分离句子时的不同行为,请指定缩写作为一个表。表必须有命名的变量缩写而且使用,在那里缩写包含缩写和使用包含每个缩写的类型。的可能值如下表所示使用,以及传递这些类型的缩写时函数的行为。

使用 行为 例子缩写 示例文本 检测到的句子
常规的 如果下一个单词是一个大写的句子开头,那么在结尾部分中断。否则,不要在尾期中断。 “appt。” “预定一个appt。我们到时候见。”

“预定一个appt。"

“我们到时候见。”

“预定一个appt。今天。” “预定一个appt。今天。”
内心的 在跟踪期后不要中断。 “博士” “史密斯博士”。 “史密斯博士”。
参考 如果下一个令牌不是一个数字,则在尾随句号处中断。如果下一个令牌是一个数字,那么不要在末尾中断。 “图”。 “见图三。” “见图三。”
“尝尝无花果吧,它们很好吃。”

“尝尝无花果吧。”

“他们很好。”

单位 如果前面的单词是一个数字,下面的单词是一个大写的句子开头,那么在结尾时中断。 “在。” “高度是30英寸。宽度是10英寸。”

“高度是30英寸。"

“宽度是10英寸。”

如果前面的单词是一个数字,而后面的单词没有大写,那么不要在末尾停顿。 “这个项目是10英寸。宽。” “这个项目是10英寸。宽。”
如果前面的单词不是数字,则在后面的句号处中断。 “进来。坐下来。”

“进来。"

“坐下。”

的输出缩写函数。对于日语和韩语文本,缩略语通常不会影响句子检测。

提示

默认情况下,该函数将单个字母缩写,如“v”,或将单个字母和句点混合的标记,如“U.S.A.”视为常规缩写。你不需要包括这些缩写缩写

例子:["cm" "mm" "in"]

数据类型:字符|字符串|表格|细胞

句子开头的单词,指定为字符串数组、字符向量或字符向量的单元格数组。如果一个句子的开头出现在一个常规缩写之后,那么该函数将在后面的句号处检测到一个句子边界。该函数忽略句子开头字母大小写的任何差异。

的输出stopWords函数。

数据类型:字符|字符串|细胞

选项丢弃以前计算的详细信息并重新计算它们,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新的文件,作为一个返回tokenizedDocument数组中。获取令牌详细信息updatedDocuments,使用tokenDetails

更多关于

全部折叠

语言的注意事项

addSentenceDetails函数根据标点符号和行号信息检测句子边界。对于英语和德语文本,该函数还使用传递给该函数的缩写列表。

对于其他语言,您可能需要为句子检测指定自己的缩写列表。要做到这一点,请使用“缩写”选择addSentenceDetails

算法

如果表情符号或表情符号出现在终止标点符号之后,则该函数在表情符号和表情符号之后拆分句子。

版本历史

在R2018a中介绍