addSentenceDetails

在文档中添加句子编号

页面上倒塌

句法

updatedDocuments = addSentenceDetails(文档)

UpdatedDocuments = AddsentEnCentails（文档，名称，值）

描述

使用addSentenceDetails将句子信息添加到文档。

该函数支持英语、日语、德语金宝app和韩语文本。

例子

updatedDocuments= AddsentEnCentails（文件）检测句子边界文件并更新令牌细节。来获取句子的细节updatedDocuments,使用令敬当。

updatedDocuments= AddsentEnCentails（文件那名称，价值）使用一个或多个名称值对参数指定其他选项。

提示

使用addSentenceDetails在使用之前较低的那上那erasePunctuation那正常化字那删除,removeStopWords函数作为addSentenceDetails使用这些功能删除的信息。

例子

全部折叠

在文档中添加句子细节

打开生活的脚本

创建标记化的文档数组。

str = [......“这是一个例子文件。它有两个句子。”“这份文件只有一句话。”下面是另一个示例文档。它还有两句话。”];文档=令授权鳕（str）;

在使用的文档中添加句子细节addSentenceDetails。此功能将句号添加到返回的表中令敬当。查看最初几个令牌的更新令牌详细信息。

文档= AddsentEnCentails（文件）;tdetails = tokendetails（文件）;头（Tdetails）

ans =8×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  __________ ______________ ______________ __________ ___________ ________ " 这种“1 1 1字母en”“1 1 1字母在”一个“1 1 1字母在“示例”1 1 1字母在“文档”“1 1 1信。”1 1 1标点符号“It”1 2 1字母“有”1 2 1字母“en”

查看第三个文档的第二句话的标记细节。

idx = tdetails.documentnumber == 3＆......tdetails.sentencenumber == 2;Tdetails（IDX，:)

ans =6×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  ___________ ______________ ______________ __________ ___________ ________ " “3 2 1字母en”也“3 2 1字母en”“3 2 1字母在“两个”3 2 1字母在“句子”3 2 1字母en”。”3 2 1标点符号

输入参数

全部折叠

`文件`-输入文件
`tokenizedDocument`数组

输入文档，指定为atokenizedDocument大批。

名称-值对的观点

指定可选的逗号分离对名称，价值参数。姓名是参数名称和价值为对应值。姓名必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家。

例子:“缩写”,(“厘米”“毫米”“在”]指定检测句子边界，其中这些缩写后跟一个时段和大写句子启动器。

`“缩写”`-的缩写列表
字符串数组|字符向量|字符向量的单元格阵列|表格

缩写列表，指定为字符串数组、字符向量、字符向量单元格数组或表。

如果缩写是字符串数组，字符向量或字符矢量的单元格数组，那么该函数将这些函数视为常规缩写。如果下一个单词是一个大写句子启动器，那么函数在尾随时间内打破。该函数忽略了缩写的字母案例中的任何差异。使用该句子启动器指定开胃菜名称-值对。

要指定在用缩写分隔句子时的不同行为，请指定缩写作为一个表。表必须有变量名缩写和使用,在那里缩写包含缩写，和使用包含每个缩写的类型。下表描述了可能的值使用，以及传递这些类型的缩写时函数的行为。

使用	行为	示例缩写	示例文本	检测到的句子
`常规的`	如果下一个单词是大写句子启动器，那么在尾随时期打破。否则，不要在尾随时期中断。	“appt。”	`“预订一本。我们会见面。”`	`“预订一个appt。”` `“我们会见面。”`
`常规的`	如果下一个单词是大写句子启动器，那么在尾随时期打破。否则，不要在尾随时期中断。	“appt。”	`“预订一本议会。今天。”`	`“预订一本议会。今天。”`
`内心的`	不要在拖尾周期后中断。	“博士”	`“史密斯博士。”`	`“史密斯博士。”`
`参考`	如果下一个令牌不是一个数字，则在一个末尾时中断。如果下一个令牌是一个数字，则不要在末尾时中断。	“无花果。”	`见图3。`	`见图3。`
`参考`	如果下一个令牌不是一个数字，则在一个末尾时中断。如果下一个令牌是一个数字，则不要在末尾时中断。	“无花果。”	`“试试无花果吧，挺好吃的。”`	`“尝试图。”` `“他们很好。”`
`单位`	如果上一词是数字，并且以下单词是大写句子启动器，则在尾随时期中断。	“在。”	`“高度是30英寸。宽度是10英寸。”`	`“高度是30英寸。"` `“宽度是10英寸。”`
	如果前面的单词是一个数字，而后面的单词不是大写的，那么不要在末尾停顿。		`“这个项目是10英寸。宽。”`	`“这个项目是10英寸。宽。”`
	如果前一词不是数字，则在尾随时段中断。		`“进来。坐下。”`	`“进来。”` `“坐下。”`

的输出缩写功能。对于日语和韩文文本，缩写通常不会影响句子检测。

提示

默认情况下，该函数将单字母缩写，如“v”，或包含单字母和句号的标记，如“U.S.A.”作为常规缩写。你不需要包含这些缩写缩写。

例子:[“cm”“mm”“在”]

数据类型：字符|细绳|表格|细胞

`“开始”`-开始句子的单词
字符串数组|字符向量|字符向量的单元格阵列

启动句子的单词，指定为字符串数组，字符向量或字符向量的小区数组。如果句子启动器在常规缩写后大写化，则该函数在尾随时段检测句子边界。该函数忽略了句子启动器的字母案例中的任何差异。

的输出stopWords功能。

数据类型：字符|细绳|细胞

`“DiscardKnownValues”`-丢弃先前计算的详细信息的选项
`错误的`（默认）|`真正的`

选项以丢弃先前计算的详细信息并重新编译，指定为真正的或错误的。

数据类型：逻辑

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新的文档，返回为tokenizedDocument大批。获取令牌细节updatedDocuments,使用令敬当。

算法

如果在终止标点字符后出现表情符号或表情符号字符，则该函数在表情和表情符号之后拆分句子。

也可以看看

话题

在R2018A介绍

addSentenceDetails

句法

描述

例子

在文档中添加句子细节

输入参数

`文件`-输入文件
`tokenizedDocument`数组

名称-值对的观点

`“缩写”`-的缩写列表
字符串数组|字符向量|字符向量的单元格阵列|表格

`“开始”`-开始句子的单词
字符串数组|字符向量|字符向量的单元格阵列

`“DiscardKnownValues”`-丢弃先前计算的详细信息的选项
`错误的`（默认）|`真正的`

输出参数

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更多关于

语言的注意事项

算法

也可以看看

话题

文本分析工具箱文档

金宝app

在Matlab中的文本分析入门

addSentenceDetails

句法

描述

例子

在文档中添加句子细节

输入参数

文件-输入文件tokenizedDocument数组

名称-值对的观点

“缩写”-的缩写列表字符串数组|字符向量|字符向量的单元格阵列|表格

“开始”-开始句子的单词字符串数组|字符向量|字符向量的单元格阵列

“DiscardKnownValues”-丢弃先前计算的详细信息的选项错误的（默认）|真正的

输出参数

updatedDocuments——更新文档tokenizedDocument数组

更多关于

语言的注意事项

算法

也可以看看

话题

文本分析工具箱文档

金宝app

在Matlab中的文本分析入门

`文件`-输入文件
`tokenizedDocument`数组

`“缩写”`-的缩写列表
字符串数组|字符向量|字符向量的单元格阵列|表格

`“开始”`-开始句子的单词
字符串数组|字符向量|字符向量的单元格阵列

`“DiscardKnownValues”`-丢弃先前计算的详细信息的选项
`错误的`（默认）|`真正的`

`updatedDocuments`——更新文档
`tokenizedDocument`数组