主要内容

addPartOfSpeechDetails

词性标记添加到文档

描述

使用addPartOfSpeechDetails将词性标记添加到文档。

函数支持英语、日语、德语,金宝app和韩国的文本。

例子

updatedDocuments= addPartOfSpeechDetails (文档)检测词类文档并更新标记的细节。这个函数,默认情况下,retokenizes词性标记的文本。例如,函数将“你”这个词分为令牌“你”和“的”。从词性的细节updatedDocuments,使用tokenDetails

updatedDocuments= addPartOfSpeechDetails (文档,名称,值)使用一个或多个指定附加选项名称-值对参数。

提示

使用addPartOfSpeechDetails在使用之前较低的,,erasePunctuation,normalizeWords,removeWords,removeStopWords函数作为addPartOfSpeechDetails这些函数使用的信息删除。

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看标记的细节前几令牌。

tdetails = tokenDetails(文件);头(tdetails)
ans =8×5表令牌DocumentNumber LineNumber __________和________型语言……* * *“公平”字母在“生物”1 1字母在“欲望”1 1字母在“增长”字母在“从而”1 1字母在“美”字母在“玫瑰”1 1字母在“可能”1字母

词性的细节添加到文档使用addPartOfSpeechDetails函数。这个函数首先将句子的信息添加到文件,然后添加了词性标记返回的表tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)
ans =8×7表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech“公平”是_____________ __________和________ ___________ * * * * * * 1 1 1字母en形容词“生物”1 1 1字母在名词“欲望”1 1 1字母在名词“增长”1 1 1字母en名词“从而”1 1 1字母在副词“美丽”1 1 1字母en名词“玫瑰”1 1 1字母在名词”可能“1 1 1字母en助动词

日本标记文本使用tokenizedDocument

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文件= tokenizedDocument (str);

对日本文字,你可以使用词性的细节tokenDetails。对于英语文本,您必须首先使用addPartOfSpeechDetails

tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber类型语言PartOfSpeech引理实体除了___ _____ ___________ ________ _______ _________ __________“恋”1 1字母是名词“恋”非“に”1字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点符号是标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“1 1标点ja标点走眼。”““恋”2 1字母是名词“恋”非“の”2 1字母ja adpositionの走眼

德国标记文本使用tokenizedDocument

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)
文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。

得到德国的词性信息文本,首先使用addPartOfSpeechDetails

= addPartOfSpeechDetails文件(文档);

查看词性细节,使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
ans =8×7表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech __________……________ ________是_____________ * * * _______”好“1 1 1字母de形容词“摩根”1 1 1字母de名词“。”1 1 1 punctuation de punctuation "Wie" 1 2 1 letters de adverb "geht" 1 2 1 letters de verb "es" 1 2 1 letters de pronoun "dir" 1 2 1 letters de pronoun "?" 1 2 1 punctuation de punctuation

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:“DiscardKnownValues”,真的指定抛弃以前计算的细节和验算。

方法retokenize文件,指定为以下之一:

  • “词性”——变换词性标注的令牌。函数执行这些任务:

    • 分离复合字。例如,将复合词“想”到令牌“想要””到“。这包括复合单词包含撇号。例如,函数将这个词“不要”到令牌“做”“不”

    • 合并时期不结束前标记的句子。例如,合并令牌“先生”“。”到令牌“先生”

    • 对德国的文本,合并跨多个令牌的缩写。例如,合并令牌“z”,“。”,“B”,“。”到单一的令牌“z。b .”

    • 合并的时期为椭圆。例如,合并的三个实例“。”到单一的令牌“…”

  • “没有”——不retokenize文档。

缩写句子检测列表,指定为一个字符串数组,特征向量,单元阵列的特征向量,或一个表。

如果输入文件不包含句子的细节,然后函数首先运行addSentenceDetails功能和指定的缩写列表“缩写”。为句子检测指定更多的选项(例如,句子开始)使用addSentenceDetails函数使用前addPartOfSpeechDetails细节。

如果缩写是一个字符串数组,特征向量,或单元阵列的特征向量,那么函数将这些视为普通的缩写。如果下一个单词大写句子起动器,然后在落后时期函数了。函数忽略了任何缩写的字母大小写的差异。指定句子初学者使用刚开始的时候名称-值对。

指定不同的行为分割句子缩写时,指定缩写作为一个表。表必须有变量命名缩写使用,在那里缩写包含缩写,使用包含每个缩写的类型。下面的表描述的可能值使用,函数的行为当通过这些类型的缩写。

使用 行为 例子缩写 示例文本 检测到的句子
常规的 如果下一个单词大写句子起动器,然后打破落后时期。否则,不失落后时期。 “appt。” ”一位appt书。我们会满足。”

”一位appt书。"

“我们将满足。”

”一位appt书。今天。” ”一位appt书。今天。”
内心的 不失落后时期。 “博士” “史密斯博士”。 “史密斯博士”。
参考 如果下一个记号不是一个数字,然后在一段后打破。如果下一个令牌是一个数字,然后在落后时期不失。 “图”。 见图3。 见图3。
“试试无花果。他们真好吃。”

“试试无花果。”

“他们很好。”

单位 如果前面的单词是一个数字和下面的单词是一个大写的句子起动器,然后在一段后打破。 “在。” “高度为30。宽度是10。”

“高度为30。"

的宽度是10。”

如果前面的单词是一个数字和下面的字不大写,然后不失落后时期。 “项目是10。宽。” “项目是10。宽。”
如果前面的词不是一个数字,然后在一段后打破。 “进来。坐下来。”

“进来。”

“坐下。”

默认值是输出的缩写函数。日本和韩国的文本、缩写句子通常不影响检测。

提示

默认情况下,函数对单字母缩写,如“诉”,或tokens with mixed single letters and periods, such as "U.S.A." as regular abbreviations. You do not need to include these abbreviations in缩写

数据类型:字符|字符串||细胞

选择丢弃之前计算的细节和验算,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新文件,作为一个返回tokenizedDocument数组中。获得令牌的细节updatedDocuments,使用tokenDetails

更多关于

全部折叠

词性标记

addPartOfSpeechDetails返回的函数将词性标记添加到表tokenDetails函数。这个函数标记每个令牌和一个分类标签的类名:

  • “形容词”——形容词

  • “adposition”——Adposition

  • “副词”——副词

  • “助动词”——助动词

  • “coord-conjunction”——并列连接词

  • “限定词”——决定因素

  • “感叹词”——感叹词

  • “名词”- - - - - -名词

  • “数字”——数字

  • “粒子”——粒子

  • “代词”——代词

  • “专有名词”(专有名词

  • “标点符号”(标点符号

  • “subord-conjunction”- - - - - -从属conjucntion

  • “象征”——象征

  • “动词”——动词

  • “其他”——其他

算法

如果输入文件不包含句子的细节,然后函数首先运行addSentenceDetails

介绍了R2018b