addSentenceDetails

句子数字添加到文档

所有的页面崩溃

语法

updatedDocuments = addSentenceDetails(文档)

updatedDocuments = addSentenceDetails(文档名称、值)

描述

使用addSentenceDetails将句子信息添加到文档。

函数支持英语、日语、德语,金宝app和韩国的文本。

例子

updatedDocuments= addSentenceDetails (文档)检测的句子边界文档并更新标记的细节。句子的细节updatedDocuments,使用tokenDetails。

updatedDocuments= addSentenceDetails (文档,名称,值)使用一个或多个指定附加选项名称-值对参数。

提示

使用addSentenceDetails在使用之前较低的,上,erasePunctuation,normalizeWords,removeWords,removeStopWords函数作为addSentenceDetails这些函数使用的信息删除。

例子

全部折叠

句子的细节添加到文档

打开生活的脚本

创建一个标记化的文档数组。

str = […“这是一个示例文档。它有两个句子。”“这个文档有一句话。”“这是另一个例子文件。它也有两句话。”];文件= tokenizedDocument (str);

句子的细节添加到文档使用addSentenceDetails。这个函数将这句话号码添加到表返回的tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)

ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________ __________ * * * ___________ ________”这种“1 1 1字母en”是“1 1 1字母在“一个”1 1 1字母在“示例”1 1 1字母在“文档”1 1 1字母在“。”1 1 1 punctuation en "It" 1 2 1 letters en "has" 1 2 1 letters en

查看标记第二句第三文档的细节。

idx = tdetails。DocumentNumber = = 3 &…tdetails。SentenceNumber = = 2;tdetails (idx:)

ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言是_____________ __________…………* * *说“它”3 2 1字母en”也“3 2 1字母在“”3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母在“。”3 2 1 punctuation en

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“缩写”,(“厘米”“毫米”“在”]指定检测这些缩写句子边界,紧随其后的是一段和一个大写的句子起动器。

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|单元阵列的特征向量|表

缩写的列表,指定为一个字符串数组,特征向量,单元阵列的特征向量,或一个表。

如果缩写是一个字符串数组,特征向量,或单元阵列的特征向量,那么函数将这些视为普通的缩写。如果下一个单词大写句子起动器,然后在落后时期函数了。函数忽略了任何缩写的字母大小写的差异。指定句子初学者使用刚开始的时候名称-值对。

指定不同的行为分割句子缩写时,指定缩写作为一个表。表必须有变量命名缩写和使用,在那里缩写包含缩写,使用包含每个缩写的类型。下面的表描述的可能值使用,函数的行为当通过这些类型的缩写。

使用	行为	例子缩写	示例文本	检测到的句子
`常规的`	如果下一个单词大写句子起动器,然后打破落后时期。否则,不失落后时期。	“appt。”	`”一位appt书。我们会满足。”`	`”一位appt书。"` `“我们将满足。”`
`常规的`	如果下一个单词大写句子起动器,然后打破落后时期。否则,不失落后时期。	“appt。”	`”一位appt书。今天。”`	`”一位appt书。今天。”`
`内心的`	不失落后时期。	“博士”	`“史密斯博士”。`	`“史密斯博士”。`
`参考`	如果下一个记号不是一个数字,然后在一段后打破。如果下一个令牌是一个数字,然后在落后时期不失。	“图”。	`见图3。`	`见图3。`
`参考`	如果下一个记号不是一个数字,然后在一段后打破。如果下一个令牌是一个数字,然后在落后时期不失。	“图”。	`“试试无花果。他们真好吃。”`	`“试试无花果。”` `“他们很好。”`
`单位`	如果前面的单词是一个数字和下面的单词是一个大写的句子起动器,然后在一段后打破。	“在。”	`“高度为30。宽度是10。”`	`“高度为30。"` `的宽度是10。”`
	如果前面的单词是一个数字和下面的字不大写,然后不失落后时期。		`“项目是10。宽。”`	`“项目是10。宽。”`
	如果前面的词不是一个数字,然后在一段后打破。		`“进来。坐下来。”`	`“进来。"` `“坐下。”`

默认值是输出的缩写函数。日本和韩国的文本、缩写句子通常不影响检测。

提示

默认情况下,函数对单字母缩写,如“诉”,或tokens with mixed single letters and periods, such as "U.S.A." as regular abbreviations. You do not need to include these abbreviations in缩写。

例子:(“厘米”“毫米”“在”]

数据类型:字符|字符串|表|细胞

`刚开始的时候`- - - - - -词开始一个句子
字符串数组|特征向量|单元阵列的特征向量

词开始一个句子,指定为一个字符串数组,特征向量,或一个单元阵列的特征向量。如果一个句子起动器出现大写后常规的缩写,然后在拖曳功能检测到一个句子边界。函数忽略了任何句子的字母大小写的差异开始。

默认值是输出的stopWords函数。

数据类型:字符|字符串|细胞

`DiscardKnownValues`- - - - - -选择丢弃之前计算的细节
`假`(默认)|`真正的`

选择丢弃之前计算的细节和验算,指定为真正的或假。

数据类型:逻辑

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新文件,作为一个返回tokenizedDocument数组中。获得令牌的细节updatedDocuments,使用tokenDetails。

算法

如果表情符号或emoji字符出现后终止标点字符,那么函数将表情符号和emoji后的句子。

版本历史

介绍了R2018a

另请参阅

addSentenceDetails

语法

描述

例子

句子的细节添加到文档

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值参数

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|单元阵列的特征向量|表

`刚开始的时候`- - - - - -词开始一个句子
字符串数组|特征向量|单元阵列的特征向量

`DiscardKnownValues`- - - - - -选择丢弃之前计算的细节
`假`(默认)|`真正的`

输出参数

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更多关于

语言的注意事项

算法

版本历史

另请参阅

主题

addSentenceDetails

语法

描述

例子

句子的细节添加到文档

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

缩写- - - - - -的缩写列表字符串数组|特征向量|单元阵列的特征向量|表

刚开始的时候- - - - - -词开始一个句子字符串数组|特征向量|单元阵列的特征向量

DiscardKnownValues- - - - - -选择丢弃之前计算的细节假(默认)|真正的

输出参数

updatedDocuments——更新文档tokenizedDocument数组

更多关于

语言的注意事项

算法

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|单元阵列的特征向量|表

`刚开始的时候`- - - - - -词开始一个句子
字符串数组|特征向量|单元阵列的特征向量

`DiscardKnownValues`- - - - - -选择丢弃之前计算的细节
`假`(默认)|`真正的`

`updatedDocuments`——更新文档
`tokenizedDocument`数组