本主题总结了支持德语文本的文本Analytics Toolbox™功能。金宝app有关展示如何分析德语文本数据的示例,请参阅分析德国文本数据.
这tokenizedDocument
功能自动检测德语输入。另外,设置'语'
选项tokenizedDocument
至'de'
.此选项指定标记的语言细节。要查看标记的语言细节,请使用令敬当
.这些语言详细信息决定了行为Removestopwords.
那addPartOfSpeechDetails
那正常化字
那addSentenceDetails
,addEntityDetails
令牌上的函数。
将德语文本标记为使用tokenizedDocument
.该功能会自动检测德语文本。
str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文件= tokenizedDocument (str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。
要检测文档中的句子结构,请使用addSentenceDetails
.你可以使用缩写
功能要帮助创建要检测的自定义缩写列表。
将德语文本标记为使用tokenizedDocument
.
str = [“古德·摩根,施密特医生。我能喝点什么吗?”"Heute wire in guter Tag."];文档=令授权鳕(str);
在文档中添加句子细节使用addSentenceDetails
.此功能将句号添加到返回的表中令敬当
.查看最初几个令牌的更新令牌详细信息。
= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails, 10)
ans =.10×6表令牌DocumentNumber SentenceNumber LineNumber类型语言 _________ ______________ ______________ __________ ___________ ________ " “摩根”好“1 1 1字母de 1 1 1字母德”,“1 1 1标点de”“1 1 1字母de”博士。”十一十一个标点德“施密特”十一十一个字母德“。”1 1 1标点"Geht" 1 2 1个字母de "es" 1 2 1个字母de "Ihnen" 1 2 1个字母de
查看德语缩写表。使用此表来帮助创建在使用时创建自定义缩写表以进行句子检测addSentenceDetails
.
tbl =缩写('语'那'de');头(TBL)
ans =.8×2表缩写用法____________ _______ "A.T" regular "ABl" regular "Abb" regular "Abdr" regular "Abf" regular "Abfl" regular "Abh" regular "Abk" regular
要将德国语音详细信息添加到文档,请使用addPartOfSpeechDetails
功能。
将德语文本标记为使用tokenizedDocument
.
str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文件= tokenizedDocument (str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。
要获得德语文本的词性细节,首先使用addPartOfSpeechDetails
.
文档= addpartofspeechdetails(文件);
要查看语音细节的部分,请使用令敬当
功能。
tdetails = tokenDetails(文件);头(tdetails)
ans =.8×7表令牌DocumentNumber SendenceNumber LineNumber型语言PartofSpeech ______________________________________________________________ ____________________________________ _________________________________________________________________________________________________________1 1 1 1个标点符号标点符号“wie”1 2 1字母de adverb“geht”1 2 1字母de动词“es”1 2 1字母de代词“dir”1 2 1字母de代词“?”1 2 1标点符号标点符号
要将实体标记添加到文档,请使用addEntityDetails
功能。
将德语文本标记为使用tokenizedDocument
.
str = [“Ernst Zog Von Frankfurt Nach Berlin。”“沃夫斯堡的大众汽车。”];文档=令授权鳕(str);
若要向德文文本添加实体标记,请使用addEntityDetails
功能。此功能检测人员名称,位置,组织和其他命名实体。
文档= AddEntityDetails(文件);
要查看实体详细信息,请使用令敬当
功能。
tdetails = tokenDetails(文件);头(tdetails)
ans =.8×8表令牌documentnumber sentencenumber inguage语言类型语言partofspeech实体___________ ___________________________________________________tress de brone-nountity“von”字母de adposition none--entity“法兰克福”1 1 1 1字母De Perfore-Noun位置“Nach”1 1 1 1 1 Litter De Adposition非实体“Berlin”1 1 1 1 Litter De Perfice-Noun位置“。1 1 1个标点符号标点符号非实体“BESUCHEN”2 1 1字母DE动词非实体
查看标记为实体的单词“人”
那“位置”
那“组织”
, 或者“其他”
.这些词是没有标记的单词“非实体”
.
idx = tdetails.entity〜=“非实体”;tdetails (idx:)
ans =.5×8表Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity ____________ ______________ ______________ __________ _______ ________ ____________ ____________“Ernst”1 1 1个字母de专有名词人“Frankfurt”1 1 1个字母de专有名词位置“Berlin”1 1 1个字母de专有名词位置“Volkswagen”2 1 1个字母de名词组织“沃尔夫斯堡”二十一个字母的专有名词位置
若要根据标记语言细节从文档中删除停止词,请使用Removestopwords.
.为德语停止词的列表设置'语'
选项stopWords
至'de'
.
将德语文本标记为使用tokenizedDocument
.该功能会自动检测德语文本。
str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文件= tokenizedDocument (str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。
删除使用Removestopwords.
功能。该函数使用文档中的语言详细信息来确定要删除的语言可停止单词。
文件= removeStopWords(文档)
documents = 2x1 tokenizedDocument: 5 token: Guten Morgen。可以吗?5令牌:Heute wird guter Tag。
根据标记语言细节,使用正常化字
.
标记德语文本tokenizedDocument
功能。该功能会自动检测德语文本。
str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文档=令授权鳕(str);
用以下方法阻止token正常化字
.
文档= rangerizewords(文档)
文档= 2x1令牌Document:8令牌:肠摩尔。魏某geht ES目录 ?6令牌:Heut Wird Ein Gut标签。
这Bagofwords.
和bagofngrams.
功能支持金宝apptokenizedDocument
输入不分语言。如果你有一个tokenizedDocument
数组包含您的数据,然后您可以使用这些函数。
这菲达
和Fitlsa.
功能支持金宝appBagofwords.
和bagofngrams.
输入不分语言。如果你有一个Bagofwords.
或bagofngrams.
包含数据的对象,然后可以使用这些函数。
这训练喜勒姆贝斯丁
功能支持金宝apptokenizedDocument
或文件输入无论语言如何。如果你有一个tokenizedDocument
数组或包含数据格式的数据的文件,然后可以使用此功能。
addLanguageDetails
|addPartOfSpeechDetails
|正常化字
|Removestopwords.
|stopWords
|令敬当
|tokenizedDocument