主要内容

添加部分speechdetails

在文档中添加词性标签

描述

使用添加部分speechdetails将语音部分添加到文档中。

该函数支持英语、日语、德语金宝app和韩语文本。

例子

更新=addPartOfSpeechDetails(文件检测语言中的词类文件并更新令牌详细信息。默认情况下,该函数将介绍语音标记的文本。例如,该函数将单词“您”拆分为令牌“您”和“Re”。从...获得讲话细节更新,使用令牌详细信息

更新=addPartOfSpeechDetails(文件名称,价值使用一个或多个名称-值对参数指定其他选项。

提示

使用添加部分speechdetails在使用之前降低上面的erasePunctuation正常化森林移除词,及Removestopwords.职能添加部分speechdetails使用这些函数删除的信息。

例子

全部收缩

加载示例数据sonnetsPreprocessed.txt包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后标记文档。

filename =.“十四行诗预处理.txt”;str=extractFileText(文件名);textData=split(str,换行符);documents=tokenizedDocument(textData);

查看前几个令牌的令牌详细信息。

tdetails=标记详细信息(文档);标题(tdetails)
ans =8×5表Token DocumentNumber LineNumber Type Language \uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

使用介绍文档的言语部分添加部分speechdetails功能。此功能首先将句子信息添加到文档中,然后将语音份额添加到返回的表中令牌详细信息.查看最初几个令牌的更新令牌详细信息。

文档= addpartofspeechdetails(文件);tdetails=标记详细信息(文档);标题(tdetails)
ans =8×7表令牌DocumentNumber sendenceNumber LineNumber型语言Partofspeech ___________ _____________________________________________________trings en enders“1 1 1 1字母EN名词”增加“1 1 1字母EN名词“由此”1 1 1字母EN adverb“Beautys”1 1 1字母EN名词“玫瑰”1 1 1 1字母EN名词“可能”1 1 1字母EN辅助动词

使用标记化文档

str=["恋に悩み、苦しむ。"“恋の悩みで苦しむ。”"空に星が輝き、瞬いている。"“空の星が辉きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”"すもももももももものうち。"];文档=标记化文档(str);

对于日文文本,您可以使用讲话细节令牌详细信息.对于英文文本,您必须首先使用添加部分speechdetails

tdetails=标记详细信息(文档);标题(tdetails)
ans =8×8表令牌文档编号行号类型语言部分语音引理实体\uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu恋" 1 1字母ja名词“恋“非实体”に“1 1字母ja位置”に“非实体”悩み“11个字母ja动词”悩む“非实体”、“1 1标点、ja标点”、“非实体”苦しむ“11个字母ja动词”苦しむ“非实体”“11标点符号”“非实体”恋“2 1个字母ja名词”恋“非实体”の“2 1字母ja位置”の“非实体

使用标记化文档

str=[“早安。你的名字叫什么?”“这是我的线。”];文档=标记化文档(str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。

要获得德语文本的词性细节,首先使用添加部分speechdetails

文档= addpartofspeechdetails(文件);

要查看语音细节的部分,请使用令牌详细信息功能。

tdetails=标记详细信息(文档);标题(tdetails)
ans =8×7表“UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU“1 1 1 1 1 1 1 1 1 1 1 1标点符号符号符号符号”1 2 1副词字母“geht”1 2 1动词字母“es”“1 2 1代名词字母”dir“1 2 1代名词字母”?“1 2 1标点符号”

输入参数

全部收缩

输入文档,指定为标记化文档大批。

名称值对参数

指定可选的逗号分离对名称,价值参数。名称是参数名称和价值是对应的值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:'DiscardKnownValues',真实指定放弃先前计算的详细信息并重新计算它们。

解冻文档的方法,指定为以下内容之一:

  • “词性”- 将令牌转换为词性标记。该函数执行这些任务:

    • 拆分复合词。例如,拆分复合词“想”进入代币“想要”“到”.这包括含有撇号的复合词。例如,函数拆分单词“别”进入代币“做”“没有”

    • 合并不以前面的标记结束句子的句号。例如,合并标记“先生”“。”进入令牌“先生”

    • 对于德语文本,合并跨越多个标记的缩写。例如,合并标记“z”“。”“B”,及“。”进入单一代币“z.B.”

    • 将周期合并成省略号。例如,合并的三个实例“。”进入单一代币“…”

  • '没有任何'-不要重新标记文档。

句子检测的缩写列表,指定为字符串数组,字符向量,字符向量的字符向量或表格数组。

如果输入文档不包含句子详细信息,则函数首先运行AddsentEnCentails.函数并指定所给出的缩写列表“缩写”.要为句子检测指定更多选项(例如,句子启动器),请使用AddsentEnCentails.函数使用前添加部分speechdetails细节。

如果缩写是字符串数组,字符向量或字符矢量的单元格数组,那么该函数将这些函数视为常规缩写。如果下一个单词是一个大写句子启动器,那么函数在尾随时间内打破。该函数忽略了缩写的字母案例中的任何差异。使用该句子启动器指定开胃菜名称-值对。

要指定在用缩写分隔句子时的不同行为,请指定缩写作为表。该表必须具有名为缩写用法,在那里缩写包含缩写,和用法包含每个缩写的类型。下表描述了可能的值用法,以及传递这些类型的缩写时函数的行为。

用法 行为 示例缩写 示例文本 侦破的句子
常规的 如果下一个单词是大写的句子起始词,则在结尾处中断。否则,不要在结尾处中断。 “appt。” “预订一本。我们会见面。”

“预订应用程序。”

“我们会见面。”

“今天就预订appt。” “今天就预订appt。”
内心的 不要在拖尾周期后中断。 “博士” “史密斯博士。” “史密斯博士。”
参考 如果下一个令牌不是一个数字,则在一个末尾时中断。如果下一个令牌是一个数字,则不要在末尾时中断。 “无花果。” 见图3。 见图3。
“试试无花果吧,挺好吃的。”

“尝试图。”

“他们很好。”

单元 如果前面的单词是一个数字,下面的单词是一个大写的句子开头词,那么在末尾停顿。 “在。” “高度为30英寸。宽度为10英寸。”

“高度是30英寸。”

“宽度为10英寸”

如果前面的单词是一个数字,而后面的单词不是大写的,那么不要在末尾停顿。 “该项目是10英寸。宽。” “该项目是10英寸。宽。”
如果前一个单词不是数字,则在尾随句点处中断。 “进来,坐下。”

“进来。”

“坐下。”

的输出缩写功能。对于日语和韩文文本,缩写通常不会影响句子检测。

提示

默认情况下,该函数将单字母缩写(如“V.”)或具有混合单字母和句点的标记(如“U.S.A.”)视为常规缩写。您不需要将这些缩写包含在缩写

数据类型:字符|一串|桌子|细胞

选项以丢弃先前计算的详细信息并重新编译,指定为真的错误的

数据类型:逻辑

输出参数

全部收缩

更新的文件,返回A.标记化文档数组中获取令牌详细信息更新,使用令牌详细信息

更多关于

全部收缩

词性标记

添加部分speechdetails函数将词性标记添加到由令牌详细信息功能。该函数用一个分类标记标记每个令牌,其中包含以下类别之一:

  • “形容词”——形容词

  • “adposition”–调整位置

  • “副词”- 副词

  • “助动词”——助动词

  • “坐标连词”–协调连接

  • “限定词”——决定因素

  • “欹”- 互化

  • “名词”- 名词

  • “数字”–数字

  • “粒子”–粒子

  • “代词”——代词

  • “专有名词”- 专有名词

  • “标点符号”–标点符号

  • “subord-conjunction”- - - - - -从属conjucntion

  • “象征”——象征

  • “动词”- 动词

  • “其他”——其他

算法

如果输入文档不包含句子详细信息,则函数首先运行AddsentEnCentails.

在R2018B中介绍