addPartOfSpeechDetails

词性标记添加到文档

所有的页面崩溃

语法

updatedDocuments = addPartOfSpeechDetails(文档)

updatedDocuments = addPartOfSpeechDetails(文档名称、值)

描述

使用addPartOfSpeechDetails将词性标记添加到文档。

函数支持英语、日语、德语,金宝app和韩国的文本。

例子

updatedDocuments= addPartOfSpeechDetails (文档)检测词类文档并更新标记的细节。这个函数,默认情况下,retokenizes词性标记的文本。例如,函数将“你”这个词分为令牌“你”和“的”。从词性的细节updatedDocuments,使用tokenDetails。

updatedDocuments= addPartOfSpeechDetails (文档,名称,值)使用一个或多个指定附加选项名称-值对参数。

提示

使用addPartOfSpeechDetails在使用之前较低的,上,erasePunctuation,normalizeWords,removeWords,removeStopWords函数作为addPartOfSpeechDetails这些函数使用的信息删除。

例子

全部折叠

词性的细节添加到文档

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

查看标记的细节前几令牌。

tdetails = tokenDetails(文件);头(tdetails)

ans =8×5表令牌DocumentNumber LineNumber __________和________型语言……* * *“公平”字母在“生物”1 1字母在“欲望”1 1字母在“增长”字母在“从而”1 1字母在“美”字母在“玫瑰”1 1字母在“可能”1字母

词性的细节添加到文档使用addPartOfSpeechDetails函数。这个函数首先将句子的信息添加到文件,然后添加了词性标记返回的表tokenDetails。查看更新后的令牌最初几个令牌的详细信息。

= addPartOfSpeechDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails)

ans =8×7表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech“公平”是_____________ __________和________ ___________ * * * * * * 1 1 1字母en形容词“生物”1 1 1字母在名词“欲望”1 1 1字母在名词“增长”1 1 1字母en名词“从而”1 1 1字母在副词“美丽”1 1 1字母en名词“玫瑰”1 1 1字母在名词”可能“1 1 1字母en助动词

得到词性日本文本的细节

打开生活的脚本

日本标记文本使用tokenizedDocument。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文件= tokenizedDocument (str);

对日本文字,你可以使用词性的细节tokenDetails。对于英语文本,您必须首先使用addPartOfSpeechDetails。

tdetails = tokenDetails(文件);头(tdetails)

ans =8×8表令牌DocumentNumber LineNumber类型语言PartOfSpeech引理实体除了___ _____ ___________ ________ _______ _________ __________“恋”1 1字母是名词“恋”非“に”1字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点符号是标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“1 1标点ja标点走眼。”““恋”2 1字母是名词“恋”非“の”2 1字母ja adpositionの走眼

得到词性德国文本的细节

打开生活的脚本

德国标记文本使用tokenizedDocument。

str = [“早安。是不是可以es dir ?”“Heute将静脉肠道标签。”];文件= tokenizedDocument (str)

文件= 2 x1 tokenizedDocument: 8令牌:早安。蒙特es dir ?6代币:Heute将静脉肠道标签。

得到德国的词性信息文本,首先使用addPartOfSpeechDetails。

= addPartOfSpeechDetails文件(文档);

查看词性细节,使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)

ans =8×7表令牌DocumentNumber SentenceNumber LineNumber类型语言PartOfSpeech __________……________ ________是_____________ * * * _______”好“1 1 1字母de形容词“摩根”1 1 1字母de名词“。”1 1 1 punctuation de punctuation "Wie" 1 2 1 letters de adverb "geht" 1 2 1 letters de verb "es" 1 2 1 letters de pronoun "dir" 1 2 1 letters de pronoun "?" 1 2 1 punctuation de punctuation

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家。

例子:“DiscardKnownValues”,真的指定抛弃以前计算的细节和验算。

`RetokenizeMethod`- - - - - -方法retokenize文档
`“词性”`(默认)|`“没有”`

方法retokenize文件,指定为以下之一:

“词性”——变换词性标注的令牌。函数执行这些任务:
- 分离复合字。例如,将复合词“想”到令牌“想要”和”到“。这包括复合单词包含撇号。例如,函数将这个词“不要”到令牌“做”和“不”。
- 合并时期不结束前标记的句子。例如,合并令牌“先生”和“。”到令牌“先生”。
- 对德国的文本,合并跨多个令牌的缩写。例如,合并令牌“z”,“。”,“B”,“。”到单一的令牌“z。b .”。
- 合并的时期为椭圆。例如,合并的三个实例“。”到单一的令牌“…”。
“没有”——不retokenize文档。

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|单元阵列的特征向量|表

缩写句子检测列表,指定为一个字符串数组,特征向量,单元阵列的特征向量,或一个表。

如果输入文件不包含句子的细节,然后函数首先运行addSentenceDetails功能和指定的缩写列表“缩写”。为句子检测指定更多的选项(例如,句子开始)使用addSentenceDetails函数使用前addPartOfSpeechDetails细节。

如果缩写是一个字符串数组,特征向量,或单元阵列的特征向量,那么函数将这些视为普通的缩写。如果下一个单词大写句子起动器,然后在落后时期函数了。函数忽略了任何缩写的字母大小写的差异。指定句子初学者使用刚开始的时候名称-值对。

指定不同的行为分割句子缩写时,指定缩写作为一个表。表必须有变量命名缩写和使用,在那里缩写包含缩写,使用包含每个缩写的类型。下面的表描述的可能值使用,函数的行为当通过这些类型的缩写。

使用	行为	例子缩写	示例文本	检测到的句子
`常规的`	如果下一个单词大写句子起动器,然后打破落后时期。否则,不失落后时期。	“appt。”	`”一位appt书。我们会满足。”`	`”一位appt书。"` `“我们将满足。”`
`常规的`	如果下一个单词大写句子起动器,然后打破落后时期。否则,不失落后时期。	“appt。”	`”一位appt书。今天。”`	`”一位appt书。今天。”`
`内心的`	不失落后时期。	“博士”	`“史密斯博士”。`	`“史密斯博士”。`
`参考`	如果下一个记号不是一个数字,然后在一段后打破。如果下一个令牌是一个数字,然后在落后时期不失。	“图”。	`见图3。`	`见图3。`
`参考`	如果下一个记号不是一个数字,然后在一段后打破。如果下一个令牌是一个数字,然后在落后时期不失。	“图”。	`“试试无花果。他们真好吃。”`	`“试试无花果。”` `“他们很好。”`
`单位`	如果前面的单词是一个数字和下面的单词是一个大写的句子起动器,然后在一段后打破。	“在。”	`“高度为30。宽度是10。”`	`“高度为30。"` `的宽度是10。”`
	如果前面的单词是一个数字和下面的字不大写,然后不失落后时期。		`“项目是10。宽。”`	`“项目是10。宽。”`
	如果前面的词不是一个数字,然后在一段后打破。		`“进来。坐下来。”`	`“进来。”` `“坐下。”`

默认值是输出的缩写函数。日本和韩国的文本、缩写句子通常不影响检测。

提示

默认情况下,函数对单字母缩写,如“诉”,或tokens with mixed single letters and periods, such as "U.S.A." as regular abbreviations. You do not need to include these abbreviations in缩写。

数据类型:字符|字符串|表|细胞

`DiscardKnownValues`- - - - - -选择丢弃之前计算的细节
`假`(默认)|`真正的`

选择丢弃之前计算的细节和验算,指定为真正的或假。

数据类型:逻辑

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新文件,作为一个返回tokenizedDocument数组中。获得令牌的细节updatedDocuments,使用tokenDetails。

算法

如果输入文件不包含句子的细节,然后函数首先运行addSentenceDetails。

另请参阅

主题

介绍了R2018b

addPartOfSpeechDetails

语法

描述

例子

词性的细节添加到文档

得到词性日本文本的细节

得到词性德国文本的细节

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

名称-值参数

`RetokenizeMethod`- - - - - -方法retokenize文档
`“词性”`(默认)|`“没有”`

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|单元阵列的特征向量|表

`DiscardKnownValues`- - - - - -选择丢弃之前计算的细节
`假`(默认)|`真正的`

输出参数

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更多关于

词性标记

算法

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB的文本分析

addPartOfSpeechDetails

语法

描述

例子

词性的细节添加到文档

得到词性日本文本的细节

得到词性德国文本的细节

输入参数

文档- - - - - -输入文档tokenizedDocument数组

名称-值参数

RetokenizeMethod- - - - - -方法retokenize文档“词性”(默认)|“没有”

缩写- - - - - -的缩写列表字符串数组|特征向量|单元阵列的特征向量|表

DiscardKnownValues- - - - - -选择丢弃之前计算的细节假(默认)|真正的

输出参数

updatedDocuments——更新文档tokenizedDocument数组

更多关于

词性标记

算法

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB的文本分析

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`RetokenizeMethod`- - - - - -方法retokenize文档
`“词性”`(默认)|`“没有”`

`缩写`- - - - - -的缩写列表
字符串数组|特征向量|单元阵列的特征向量|表

`DiscardKnownValues`- - - - - -选择丢弃之前计算的细节
`假`(默认)|`真正的`

`updatedDocuments`——更新文档
`tokenizedDocument`数组