主要内容

addSentenceDetails

句子数字添加到文档

描述

使用addSentenceDetails将句子信息添加到文档。

函数支持英语、日语、德语,金宝app和韩国的文本。

例子

updatedDocuments= addSentenceDetails (文档)检测的句子边界文档并更新标记的细节。句子的细节updatedDocuments,使用tokenDetails

updatedDocuments= addSentenceDetails (文档,名称,值)使用一个或多个指定附加选项名称-值对参数。

提示

使用addSentenceDetails在使用之前较低的,,erasePunctuation,normalizeWords,removeWords,removeStopWords函数作为addSentenceDetails这些函数使用的信息删除。

例子

全部折叠

创建一个标记化的文档数组。

str = [“这是一个示例文档。它有两个句子。”“这个文档有一句话。”“这是另一个例子文件。它也有两句话。”];文件= tokenizedDocument (str);

句子的细节添加到文档使用addSentenceDetails。这个函数将这句话号码添加到表返回的tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________ __________ * * * ___________ ________”这种“1 1 1字母en”是“1 1 1字母在“一个”1 1 1字母在“示例”1 1 1字母在“文档”1 1 1字母在“。”1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en

查看标记第二句第三文档的细节。

idx = tdetails。DocumentNumber = = 3 &tdetails。SentenceNumber = = 2;tdetails (idx:)
ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________…………* * *说“它”3 2 1字母en”也“3 2 1字母在“”3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母在“。”3 2 1 punctuation en

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“缩写”,(“厘米”“毫米”“在”]指定检测这些缩写句子边界,紧随其后的是一段和一个大写的句子起动器。

缩写的列表,指定为一个字符串数组,特征向量,单元阵列的特征向量,或一个表。

如果缩写是一个字符串数组,特征向量,或单元阵列的特征向量,那么函数将这些视为普通的缩写。如果下一个单词大写句子起动器,然后在落后时期函数了。函数忽略了任何缩写的字母大小写的差异。指定句子初学者使用刚开始的时候名称-值对。

指定不同的行为分割句子缩写时,指定缩写作为一个表。表必须有变量命名缩写使用,在那里缩写包含缩写,使用包含每个缩写的类型。下面的表描述的可能值使用,函数的行为当通过这些类型的缩写。

使用 行为 例子缩写 示例文本 检测到的句子
常规的 如果下一个单词大写句子起动器,然后打破落后时期。否则,不失落后时期。 “appt。” ”一位appt书。我们会满足。”

”一位appt书。"

“我们将满足。”

”一位appt书。今天。” ”一位appt书。今天。”
内心的 不失落后时期。 “博士” “史密斯博士”。 “史密斯博士”。
参考 如果下一个记号不是一个数字,然后在一段后打破。如果下一个令牌是一个数字,然后在落后时期不失。 “图”。 见图3。 见图3。
“试试无花果。他们真好吃。”

“试试无花果。”

“他们很好。”

单位 如果前面的单词是一个数字和下面的单词是一个大写的句子起动器,然后在一段后打破。 “在。” “高度为30。宽度是10。”

“高度为30。"

的宽度是10。”

如果前面的单词是一个数字和下面的字不大写,然后不失落后时期。 “项目是10。宽。” “项目是10。宽。”
如果前面的词不是一个数字,然后在一段后打破。 “进来。坐下来。”

“进来。"

“坐下。”

默认值是输出的缩写函数。日本和韩国的文本、缩写句子通常不影响检测。

提示

默认情况下,函数对单字母缩写,如“诉”,或tokens with mixed single letters and periods, such as "U.S.A." as regular abbreviations. You do not need to include these abbreviations in缩写

例子:(“厘米”“毫米”“在”]

数据类型:字符|字符串||细胞

词开始一个句子,指定为一个字符串数组,特征向量,或一个单元阵列的特征向量。如果一个句子起动器出现大写后常规的缩写,然后在拖曳功能检测到一个句子边界。函数忽略了任何句子的字母大小写的差异开始。

默认值是输出的stopWords函数。

数据类型:字符|字符串|细胞

选择丢弃之前计算的细节和验算,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新文件,作为一个返回tokenizedDocument数组中。获得令牌的细节updatedDocuments,使用tokenDetails

更多关于

全部折叠

语言的注意事项

addSentenceDetails功能检测句子边界基于标点符号和行号信息。英语和德语文本,函数也使用缩写的列表传递给函数。

对于其他语言,您可能需要指定自己的句子的缩写列表检测。要做到这一点,使用“缩写”选择addSentenceDetails

算法

如果表情符号或emoji字符出现后终止标点字符,那么函数将表情符号和emoji后的句子。

版本历史

介绍了R2018a