主要内容

AddsentEnCentails.

将句号添加到文件中

描述

AddsentEnCentails.将句子信息添加到文档中。

该功能支持英语,日语,德语金宝app和韩文文本。

例子

更新录容= AddsentEnCentails(文件的)检测句子边界文件并更新令牌详细信息。从...获得句子细节更新录容, 用令敬当

更新录容= AddsentEnCentails(文件名称,价值的)使用一个或多个名称值对参数指定其他选项。

提示

AddsentEnCentails.在使用之前降低侵蚀正常化字删除, 和Removestopwords.用作AddsentEnCentails.使用这些功能删除的信息。

例子

全部收缩

创建一个令牌化文档阵列。

str = [......“这是一个例子文件。它有两个句子。”“这份文件有一句话。”“这是另一个示例文档。它还有两个句子。”];文档=令授权鳕(str);

使用以下文件添加句子详细信息AddsentEnCentails.。此功能将句号添加到返回的表令敬当。查看最初几个令牌的更新令牌详细信息。

Documents = AddsentEnCentails(文件);Tdetails =令象牙(文件);头(Tdetails)
ANS =.8×6表令牌DocumentNumber sendenceNumber LineNumber类型语言__________ __________________________________________________________________字母en“是”1 1 1字母EN“示例”1 1 1 1 1字母EN“文档”1 1 1 1字母en“。”1 1 1标点符号en“它”1 2 1字母EN“有”1 2 1字母EN

查看第三个文档的第二句话的令牌详细信息。

idx = tdetails.documentnumber == 3&......tdetails.sentencenumber == 2;Tdetails(IDX,:)
ANS =.6×6表令牌documentnumber sentencenumber linenumber型语言___________ ____________________________________________________________________________________________________字母en“。”3 2 1标点符号en

输入参数

全部收缩

输入文档,指定为a令人生畏的鳕文大批。

名称 - 值参数

指定可选的逗号分离对名称,价值论点。姓名是参数名称和价值是相应的价值。姓名必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:'缩写',[“cm”“mm”“in”]指定检测这些缩写后面的句子边界,然后是一段时间和大写句子启动器。

缩写列表,指定为字符串阵列,字符向量,字符向量的单元格数组或表格。

如果缩写是字符串数组,字符向量或字符矢量的单元格数组,然后该函数将它们视为常规缩写。如果下一个单词是一个大写句子启动器,那么函数会在尾随时间内打破。该函数忽略了缩写的字母案例中的任何差异。使用使用的句子启动器初学者名称值对。

在缩写缩写时拆分句子时指定不同的行为,请指定缩写作为桌子。表必须具有名为的变量缩写用法, 在哪里缩写包含缩写,和用法包含每个缩写的类型。下表描述了可能的值用法以及当通过这些类型的缩写时函数的行为。

用法 行为 示例缩写 示例文本 检测到的句子
常规的 如果下一个单词是大写句子启动器,则在尾随时期打破。否则,不要在尾随期间休息。 “appt。” “预订一家议会。我们会见面。”

“预订一个appt。”

“我们会见面。”

“预订一本。今天。” “预订一本。今天。”
尾随期后不要破坏。 “博士” “史密斯博士。” “史密斯博士。”
参考 如果下一个令牌不是数字,则在落后期间打破。如果下一个令牌是数字,则在尾随时期不会破坏。 “无花果。” “见图3.” “见图3.”
“尝试一个图。他们很好。”

“尝试图。”

“他们很好。”

单元 如果前一词是数字,并且以下单词是一个大写句子启动器,则在尾随时期中断。 “在。” “高度为30英寸。宽度为10英寸”

“高度为30英寸”

“宽度为10英寸”

如果前一个单词是数字,并且以下单词不大写,则不会在尾随时段中断。 “该项目是10英寸宽。” “该项目是10英寸宽。”
如果前一词不是数字,则在尾随时段中断。 “进来。坐下。”

“进来吧。”

“坐下。”

默认值是输出缩写功能。对于日语和韩文文本,缩写通常不会影响句子检测。

提示

默认情况下,该函数将单个字母缩写,例如“V”或具有混合单个字母和周期的令牌,例如“U.S.A.”。作为常规缩写。您不需要包含这些缩写缩写

例子:[“cm”“mm”“在”中]

数据类型:char|细绳|桌子|细胞

启动句子的单词,指定为字符串阵列,字符向量或字符向量的小区数组。如果句子起动器在常规缩写后大写,则该函数在尾随时段检测句子边界。该函数忽略了句子启动器的字母案例中的任何差异。

默认值是输出秒表功能。

数据类型:char|细绳|细胞

丢弃先前计算的详细信息并重新计算,指定为真的或者错误的

数据类型:逻辑

输出参数

全部收缩

更新的文件,返回A.令人生畏的鳕文大批。从...获得令牌细节更新录容, 用令敬当

更多关于

全部收缩

语言考虑因素

AddsentEnCentails.函数根据标点符号字符和行号信息检测句子边界。对于英语和德语文本,该函数还使用传递给函数的缩写列表。

对于其他语言,您可能需要指定您自己的句子检测缩写列表。为此,使用'缩写'选择AddsentEnCentails.

算法

如果在终止标点符号之后出现表情符号或表情符号字符,则该函数在表情符号和表情符号之后拆分句子。

在R2018A介绍