主要内容

addLanguageDetails

向文档添加语言标识符

描述

使用addLanguageDetails向文档添加语言标识符。

该函数支持英语、日语、德语金宝app和韩语文本。

例子

updatedDocuments= addLanguageDetails (文档检测语言文档并更新令牌细节。该函数只向缺少语言细节的标记添加细节。来获取语言细节updatedDocuments,使用tokenDetails

updatedDocuments= addLanguageDetails (文档名称,值使用一个或多个名称-值对指定其他选项。

提示

使用addLanguageDetails在使用之前较低的函数作为addLanguageDetails使用被此函数删除的信息。

例子

全部折叠

通过将文本分割为单词数组来手动标记一些文本。将手动标记的文本转换为tokenizedDocument对象的“TokenizeMethod”选项“没有”

str =分裂(一个短句的例子)”;文件= tokenizedDocument (str,“TokenizeMethod”“没有”);

查看令牌细节使用tokenDetails

tdetails = tokenDetails(文档)
tdetails =6×2表令牌DocumentNumber  __________ ______________ " 一个“1”的例子“1”的“1”“1”短句子“1 1

当你指定“TokenizeMethod”、“没有”,该函数不会自动检测文档的语言细节。要添加语言细节,请使用addLanguageDetails函数。默认情况下,该函数自动检测语言。

= addLanguageDetails文件(文档);

使用查看更新的令牌详细信息tokenDetails

tdetails = tokenDetails(文档)
tdetails =6×4表Token DocumentNumber Type Language __________ ______________ _______ ________ "an" 1 letters en "example" 1 letters en "of" 1 letters en "a" 1 letters en "short" 1 letters en "sentence" 1 letters en

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“DiscardKnownValues”,真的指定放弃先前计算的详细信息并重新计算它们。

语言,指定为下列一种:

  • “en”- - - - - -英语

  • “ja”——日本

  • “德”——德国

  • “柯”——韩国

如果没有指定值,则该函数使用corpusLanguage函数。

此选项指定标记的语言细节。要查看标记的语言细节,请使用tokenDetails这些语言细节决定removeStopWordsaddPartOfSpeechDetailsnormalizeWordsaddSentenceDetails,addEntityDetails令牌上的函数。

有关“文本分析工具箱™”中语言支持的更多信息,请参见金宝app语言的注意事项

选择放弃先前计算的细节并重新计算它们,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新的文档,返回为tokenizedDocument数组中。获取令牌的详细信息updatedDocuments,使用tokenDetails

介绍了R2018b