主要内容

addpartofspeechdetails.

在文档中添加词性标签

描述

采用addpartofspeechdetails.将语音部分添加到文档中。

该函数支持英语、日语、德语金宝app和韩语文本。

例子

更新= addpartofspeechdetails(文件检测讲话的部分文件并更新令牌详细信息。默认情况下,该函数将介绍语音标记的文本。例如,该函数将单词“您”拆分为令牌“您”和“Re”。从...获得讲话细节更新, 采用令敬当

更新= addpartofspeechdetails(文件名称,价值使用一个或多个名称值对参数指定其他选项。

小费

采用addpartofspeechdetails.在使用之前降低erasePunctuation正常化字删除, 和Removestopwords.用作addpartofspeechdetails.使用这些功能删除的信息。

例子

全部收缩

加载示例数据。文件sonnetsPreprocessed.txt包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetsPreprocessed.txt,拆分文本的换行符的文件,然后记号化文档。

filename =.“sonnetspreprocessed.txt”;str =提取文件(文件名);的TextData = SPLIT(STR,换行);文档= tokenizeddocument(textdata);

查看前几令牌的令牌细节。

tdetails = tokendetails(文件);头(Tdetails)
ans =8×5表令牌documentnumber linenumber型语言___________ _________________________________________________________________________________欲绝“1字母en”欲望“1 1字母EN”增加“1 1字母en”从而“1 1字母en”beautys“1 1字母EN“玫瑰”1 1字母EN“可能”1 1字母EN

使用介绍文档的言语部分addpartofspeechdetails.功能。此功能首先将句子信息添加到文档中,然后将语音份额添加到返回的表中令敬当.查看最初几个令牌的更新令牌详细信息。

文档= addpartofspeechdetails(文件);tdetails = tokendetails(文件);头(Tdetails)
ans =8×7表令牌DocumentNumber sendenceNumber LineNumber型语言Partofspeech ___________ _____________________________________________________trings en enders“1 1 1 1字母EN名词”增加“1 1 1字母EN名词“由此”1 1 1字母EN adverb“Beautys”1 1 1字母EN名词“玫瑰”1 1 1 1字母EN名词“可能”1 1 1字母EN辅助动词

用来象征日语文本令人畏缩的鳕文

str = [“恋恋に,苦しむ。”“恋の悩みで苦しむ。”“空に星が辉き,瞬いている。”“空の星が辉きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち”。];文档=令授权鳕(str);

对于日文文本,您可以使用讲话细节令敬当.对于英文文本,必须先使用addpartofspeechdetails.

tdetails = tokendetails(文件);头(Tdetails)
ans =8×8表令牌文档Number LineNumber类型语言Partofspeech Lemma实体_______ _____________________________________________________________________________________________________________________________________________________________________________________JA动词“悩む”非实体“,”1 1标点符号JA标点符号“,”非实体“苦しむ”1 1字母JA动词“苦しむ”非实体“。”1 1标点符号JA标点符号“。”非实体“恋”2 1字母JA名词“恋”非实体“の”2 1字母JA adposition“の”非实体

使用授权德语文本令人畏缩的鳕文

str = [“早安。你的名字叫什么?”“这是我的线。”];文档= tokenizedDocument(STR)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。

要获得德语文本的词性细节,首先使用addpartofspeechdetails.

文档= addpartofspeechdetails(文件);

要查看语音细节的部分,请使用令敬当功能。

tdetails = tokendetails(文件);头(Tdetails)
ans =8×7表令牌DocumentNumber SentenceNumber LineNumber上类型语言PartOfSpeech ________ ______________ ______________ __________ ___________ ________ ____________ “Guten” 1个1 1字母DE形容词 “摩根” 1个1 1字母DE名词 “”1 1 1 1个标点符号标点符号“wie”1 2 1字母de adverb“geht”1 2 1字母de动词“es”1 2 1字母de代词“dir”1 2 1字母de代词“?”1 2 1标点符号标点符号

输入参数

全部收缩

输入文档,指定为a令人畏缩的鳕文大批。

名称值对参数

指定可选的逗号分离对名称,价值参数。名称是参数名称和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:'DiscardKnownValues',真实指定放弃先前计算的详细信息并重新计算它们。

解冻文档的方法,指定为以下内容之一:

  • “词性”- 将令牌转换为词性标记。该函数执行这些任务:

    • 分裂复合词。例如,拆分复合词“想”进入令牌“想”“到”.这包括含有撇号的复合词。例如,函数拆分单词“别”进入令牌“做”“不”

    • 合并不以前面的标记结束句子的句号。例如,合并的令牌“先生”“。”进入令牌“先生”

    • 对于德语文本,合并跨越多个令牌的缩写。例如,合并的令牌“z”“。”“B”, 和“。”进入单个令牌“Z。B.”

    • 合并到省略号中的延期运行。例如,合并的三个实例“。”进入单个令牌“…”

  • '没有任何'-不要重新标记文档。

句子检测的缩写列表,指定为字符串数组,字符向量,字符向量的字符向量或表格数组。

如果输入文档不包含句子详细信息,则该功能首先运行AddsentEnCentails.函数并指定所给出的缩写列表'缩写'.要为句子检测指定更多选项(例如,句子启动器),请使用AddsentEnCentails.函数使用前addpartofspeechdetails.细节。

如果缩写是字符串数组,字符向量或字符矢量的单元格数组,那么该函数将这些函数视为常规缩写。如果下一个单词是一个大写句子启动器,那么函数在尾随时间内打破。该函数忽略了缩写的字母案例中的任何差异。使用该句子启动器指定开胃菜名称值对。

要指定在用缩写分隔句子时的不同行为,请指定缩写作为一张桌子。表必须具有命名的变量缩写用法, 在哪里缩写包含缩写,和用法包含每个缩写的类型。下表描述了可能的值用法以及当通过这些类型的缩写时函数的行为。

用法 行为 示例缩写 示例文本 检测到的句子
常规的 如果下一个单词是大写句子启动器,那么在尾随时期打破。否则,不要在尾随时期中断。 “appt。” “预订一本。我们会见面。”

“一书的聘任。”

“我们会见面。”

“预订一本议会。今天。” “预订一本议会。今天。”
内心的 不要在拖尾周期后中断。 “博士” “史密斯博士。” “史密斯博士。”
参考 如果下一个令牌不是一个数字,则在一个末尾时中断。如果下一个令牌是一个数字,则不要在末尾时中断。 “图。” 见图3。 见图3。
“试试无花果吧,挺好吃的。”

“尝试图。”

“他们很好。”

单元 如果前一个词是一个数字,下面的字是一个大写的句子首发,然后在结尾句打破。 “在。” “高度为30英寸。宽度为10英寸”

“高度是30英寸。”

“宽度为10英寸”

如果前面的单词是一个数字,而后面的单词不是大写的,那么不要在末尾停顿。 “该项目是10英寸宽。” “该项目是10英寸宽。”
如果前一个词是不是一个数字,然后在结尾句打破。 “进来,坐下。”

“进来吧。”

“坐下。”

的输出缩写功能。对于日语和韩文文本,缩写通常不会影响句子检测。

小费

默认情况下,该函数将单个字母缩写,例如“V”或具有混合单个字母和周期的令牌,例如“U.S.A.”。作为普通的缩写。您不需要包含这些缩写缩写

数据类型:字符|细绳|桌子|细胞

选项以丢弃先前计算的详细信息并重新编译,指定为真的要么错误的

数据类型:逻辑

输出参数

全部收缩

更新的文件,返回A.令人畏缩的鳕文大批。获取令牌细节更新, 采用令敬当

更多关于

全部收缩

部分的语音标签

addpartofspeechdetails.函数将词性标记添加到由令敬当功能。该函数用一个分类标记标记每个令牌,其中包含以下类别之一:

  • “形容词”——形容词

  • “adposition”- adposition.

  • “副词”- 副词

  • “助动词”——助动词

  • “COORD-COMPULENT”- 并列连词

  • “决定者”——决定因素

  • “欹”- 互化

  • “名词”- 名词

  • “数字”- 数字

  • “粒子”- 粒子

  • “代词”- 代名词

  • “专有名词”- 专有名词

  • “标点”- 标点符号

  • “潜在结合”- - - - - -从属conjucntion

  • “象征”- 象征

  • “动词”- 动词

  • “其他”- 其他

算法

如果输入文件不包含句的细节,那么函数第一次运行AddsentEnCentails.

在R2018B中介绍