主要内容

德国语言支持金宝app

本主题总结了支持德语文本的文本Analytics Toolbox™功能。金宝app有关展示如何分析德语文本数据的示例,请参阅分析德国文本数据

象征化

tokenizedDocument功能自动检测德语输入。另外,设置'语'选项tokenizedDocument'de'.此选项指定标记的语言细节。要查看标记的语言细节,请使用令敬当这些语言详细信息决定了行为Removestopwords.addPartOfSpeechDetails正常化字addSentenceDetails,addEntityDetails令牌上的函数。

授权德语文本

将德语文本标记为使用tokenizedDocument.该功能会自动检测德语文本。

str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文件= tokenizedDocument (str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。

句子检测

要检测文档中的句子结构,请使用addSentenceDetails.你可以使用缩写功能要帮助创建要检测的自定义缩写列表。

添加句子细节德语文件

将德语文本标记为使用tokenizedDocument

str = [“古德·摩根,施密特医生。我能喝点什么吗?”"Heute wire in guter Tag."];文档=令授权鳕(str);

在文档中添加句子细节使用addSentenceDetails.此功能将句号添加到返回的表中令敬当.查看最初几个令牌的更新令牌详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails, 10)
ans =.10×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  _________ ______________ ______________ __________ ___________ ________ " “摩根”好“1 1 1字母de 1 1 1字母德”,“1 1 1标点de”“1 1 1字母de”博士。”十一十一个标点德“施密特”十一十一个字母德“。”1 1 1标点"Geht" 1 2 1个字母de "es" 1 2 1个字母de "Ihnen" 1 2 1个字母de

德语缩写表

查看德语缩写表。使用此表来帮助创建在使用时创建自定义缩写表以进行句子检测addSentenceDetails

tbl =缩写('语''de');头(TBL)
ans =.8×2表缩写用法____________ _______ "A.T" regular "ABl" regular "Abb" regular "Abdr" regular "Abf" regular "Abfl" regular "Abh" regular "Abk" regular

言语细节部分

要将德国语音详细信息添加到文档,请使用addPartOfSpeechDetails功能。

获得德语文本的讲话细节的一部分

将德语文本标记为使用tokenizedDocument

str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文件= tokenizedDocument (str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。

要获得德语文本的词性细节,首先使用addPartOfSpeechDetails

文档= addpartofspeechdetails(文件);

要查看语音细节的部分,请使用令敬当功能。

tdetails = tokenDetails(文件);头(tdetails)
ans =.8×7表令牌DocumentNumber SendenceNumber LineNumber型语言PartofSpeech ______________________________________________________________ ____________________________________ _________________________________________________________________________________________________________1 1 1 1个标点符号标点符号“wie”1 2 1字母de adverb“geht”1 2 1字母de动词“es”1 2 1字母de代词“dir”1 2 1字母de代词“?”1 2 1标点符号标点符号

命名实体识别

要将实体标记添加到文档,请使用addEntityDetails功能。

为德文文本添加命名实体标签

将德语文本标记为使用tokenizedDocument

str = [“Ernst Zog Von Frankfurt Nach Berlin。”“沃夫斯堡的大众汽车。”];文档=令授权鳕(str);

若要向德文文本添加实体标记,请使用addEntityDetails功能。此功能检测人员名称,位置,组织和其他命名实体。

文档= AddEntityDetails(文件);

要查看实体详细信息,请使用令敬当功能。

tdetails = tokenDetails(文件);头(tdetails)
ans =.8×8表令牌documentnumber sentencenumber inguage语言类型语言partofspeech实体___________ ___________________________________________________tress de brone-nountity“von”字母de adposition none--entity“法兰克福”1 1 1 1字母De Perfore-Noun位置“Nach”1 1 1 1 1 Litter De Adposition非实体“Berlin”1 1 1 1 Litter De Perfice-Noun位置“。1 1 1个标点符号标点符号非实体“BESUCHEN”2 1 1字母DE动词非实体

查看标记为实体的单词“人”“位置”“组织”, 或者“其他”.这些词是没有标记的单词“非实体”

idx = tdetails.entity〜=“非实体”;tdetails (idx:)
ans =.5×8表Token DocumentNumber SentenceNumber LineNumber Type Language PartOfSpeech Entity ____________ ______________ ______________ __________ _______ ________ ____________ ____________“Ernst”1 1 1个字母de专有名词人“Frankfurt”1 1 1个字母de专有名词位置“Berlin”1 1 1个字母de专有名词位置“Volkswagen”2 1 1个字母de名词组织“沃尔夫斯堡”二十一个字母的专有名词位置

停止单词

若要根据标记语言细节从文档中删除停止词,请使用Removestopwords..为德语停止词的列表设置'语'选项stopWords'de'

从文件中删除德国停止单词

将德语文本标记为使用tokenizedDocument.该功能会自动检测德语文本。

str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文件= tokenizedDocument (str)
文档= 2x1令牌地区:8令牌:Guten Morgen。魏某geht ES目录 ?6个令牌:Heute Wird Ein Guter标签。

删除使用Removestopwords.功能。该函数使用文档中的语言详细信息来确定要删除的语言可停止单词。

文件= removeStopWords(文档)
documents = 2x1 tokenizedDocument: 5 token: Guten Morgen。可以吗?5令牌:Heute wird guter Tag。

根据标记语言细节,使用正常化字

干德文文本

标记德语文本tokenizedDocument功能。该功能会自动检测德语文本。

str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文档=令授权鳕(str);

用以下方法阻止token正常化字

文档= rangerizewords(文档)
文档= 2x1令牌Document:8令牌:肠摩尔。魏某geht ES目录 ?6令牌:Heut Wird Ein Gut标签。

语言的特性

单词和n-gram计数

Bagofwords.bagofngrams.功能支持金宝apptokenizedDocument输入不分语言。如果你有一个tokenizedDocument数组包含您的数据,然后您可以使用这些函数。

建模和预测

菲达Fitlsa.功能支持金宝appBagofwords.bagofngrams.输入不分语言。如果你有一个Bagofwords.bagofngrams.包含数据的对象,然后可以使用这些函数。

训练喜勒姆贝斯丁功能支持金宝apptokenizedDocument或文件输入无论语言如何。如果你有一个tokenizedDocument数组或包含数据格式的数据的文件,然后可以使用此功能。

也可以看看

||||||

相关的话题