主要内容

addSentenceDetails

在文档中添加句子编号

描述

使用addSentenceDetails将句子信息添加到文档。

该函数支持英语、日语、德语金宝app和韩语文本。

例子

updatedDocuments= AddsentEnCentails(文件检测句子边界文件并更新令牌细节。来获取句子的细节updatedDocuments,使用令敬当

updatedDocuments= AddsentEnCentails(文件名称,价值使用一个或多个名称值对参数指定其他选项。

提示

使用addSentenceDetails在使用之前较低的erasePunctuation正常化字删除,removeStopWords函数作为addSentenceDetails使用这些功能删除的信息。

例子

全部折叠

创建标记化的文档数组。

str = [......“这是一个例子文件。它有两个句子。”“这份文件只有一句话。”下面是另一个示例文档。它还有两句话。”];文档=令授权鳕(str);

在使用的文档中添加句子细节addSentenceDetails。此功能将句号添加到返回的表中令敬当。查看最初几个令牌的更新令牌详细信息。

文档= AddsentEnCentails(文件);tdetails = tokendetails(文件);头(Tdetails)
ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1标点符号“It”1 2 1字母“有”1 2 1字母“en”

查看第三个文档的第二句话的标记细节。

idx = tdetails.documentnumber == 3&......tdetails.sentencenumber == 2;Tdetails(IDX,:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

输入参数

全部折叠

输入文档,指定为atokenizedDocument大批。

名称-值对的观点

指定可选的逗号分离对名称,价值参数。姓名是参数名称和价值为对应值。姓名必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“缩写”,(“厘米”“毫米”“在”]指定检测句子边界,其中这些缩写后跟一个时段和大写句子启动器。

缩写列表,指定为字符串数组、字符向量、字符向量单元格数组或表。

如果缩写是字符串数组,字符向量或字符矢量的单元格数组,那么该函数将这些函数视为常规缩写。如果下一个单词是一个大写句子启动器,那么函数在尾随时间内打破。该函数忽略了缩写的字母案例中的任何差异。使用该句子启动器指定开胃菜名称-值对。

要指定在用缩写分隔句子时的不同行为,请指定缩写作为一个表。表必须有变量名缩写使用,在那里缩写包含缩写,和使用包含每个缩写的类型。下表描述了可能的值使用,以及传递这些类型的缩写时函数的行为。

使用 行为 示例缩写 示例文本 检测到的句子
常规的 如果下一个单词是大写句子启动器,那么在尾随时期打破。否则,不要在尾随时期中断。 “appt。” “预订一本。我们会见面。”

“预订一个appt。”

“我们会见面。”

“预订一本议会。今天。” “预订一本议会。今天。”
内心的 不要在拖尾周期后中断。 “博士” “史密斯博士。” “史密斯博士。”
参考 如果下一个令牌不是一个数字,则在一个末尾时中断。如果下一个令牌是一个数字,则不要在末尾时中断。 “无花果。” 见图3。 见图3。
“试试无花果吧,挺好吃的。”

“尝试图。”

“他们很好。”

单位 如果上一词是数字,并且以下单词是大写句子启动器,则在尾随时期中断。 “在。” “高度是30英寸。宽度是10英寸。”

“高度是30英寸。"

“宽度是10英寸。”

如果前面的单词是一个数字,而后面的单词不是大写的,那么不要在末尾停顿。 “这个项目是10英寸。宽。” “这个项目是10英寸。宽。”
如果前一词不是数字,则在尾随时段中断。 “进来。坐下。”

“进来。”

“坐下。”

的输出缩写功能。对于日语和韩文文本,缩写通常不会影响句子检测。

提示

默认情况下,该函数将单字母缩写,如“v”,或包含单字母和句号的标记,如“U.S.A.”作为常规缩写。你不需要包含这些缩写缩写

例子:[“cm”“mm”“在”]

数据类型:字符|细绳|表格|细胞

启动句子的单词,指定为字符串数组,字符向量或字符向量的小区数组。如果句子启动器在常规缩写后大写化,则该函数在尾随时段检测句子边界。该函数忽略了句子启动器的字母案例中的任何差异。

的输出stopWords功能。

数据类型:字符|细绳|细胞

选项以丢弃先前计算的详细信息并重新编译,指定为真正的错误的

数据类型:逻辑

输出参数

全部折叠

更新的文档,返回为tokenizedDocument大批。获取令牌细节updatedDocuments,使用令敬当

更多关于

全部折叠

语言的注意事项

addSentenceDetails函数根据标点符号和行号信息检测句子边界。对于英语和德语文本,函数还使用传递给函数的缩写列表。

对于其他语言,您可能需要指定自己的句子检测缩写列表。为此,使用“缩写”选择addSentenceDetails

算法

如果在终止标点字符后出现表情符号或表情符号字符,则该函数在表情和表情符号之后拆分句子。

在R2018A介绍