主要内容

德国语言支持金宝app

本主题总结了文本分析工具箱™ 支持德语文本的功能。有关显示如何分析德语文本数据的示例,请参见金宝app分析德语文本数据

符号化

这个tokenizedDocument功能自动检测德语输入。另外,设置“语言”选项tokenizedDocument“德”.此选项指定标记的语言细节。要查看标记的语言细节,请使用令牌详细信息这些语言细节决定了移除单词,addPartOfSpeechDetails,正常化森林,addSentenceDetails,附加细节令牌上的函数。

标记德语文本

使用标记德语文本tokenizedDocument. 该功能自动检测德语文本。

str = [“早安。你的名字叫什么?”“这是我的线。”];文件= tokenizedDocument (str)
文档=2x1标记化文档:8个标记:Guten Morgen。你是谁?6个标记:Heute wird ein guter标记。

句子检测

要检测文档中的句子结构,请使用addSentenceDetails.你可以使用缩写函数帮助创建要检测的缩略语的自定义列表。

为德语文档添加句子细节

使用标记德语文本tokenizedDocument

str = [“你好,摩根,施密特医生。你能给我些什么?”“这是我的线。”];文档=标记化文档(str);

在使用的文档中添加句子细节addSentenceDetails. 此函数用于将句子编号添加到令牌详细信息. 查看前几个令牌的更新令牌详细信息。

= addSentenceDetails文件(文档);tdetails = tokenDetails(文件);头(tdetails, 10)
ans=10×6表令牌DocumentNumber SentenceNumber LineNumber类型语言  _________ ______________ ______________ __________ ___________ ________ " “摩根”好“1 1 1字母de 1 1 1字母德”,“1 1 1标点de”“1 1 1字母de”博士。”1 1 1标点de "Schmidt" 1 1 1字母de "。1 1 1标点符号de "Geht" 1 2 1个字母de "es" 1 2 1个字母de "Ihnen" 1 2 1个字母de

德语缩略语表

查看德语缩写表。使用此表有助于在使用时创建用于句子检测的自定义缩写表addSentenceDetails

tbl=缩写(“语言”,“德”); 总目(待定)
ans=8×2表缩写用法____________ _______ "A.T" regular "ABl" regular "Abb" regular "Abdr" regular "Abf" regular "Abfl" regular "Abh" regular "Abk" regular

部分言语细节

要向文档中添加德语词性详细信息,请使用addPartOfSpeechDetails作用

获取德语文本的词性详细信息

使用标记德语文本tokenizedDocument

str = [“早安。你的名字叫什么?”“这是我的线。”];文件= tokenizedDocument (str)
文档=2x1标记化文档:8个标记:Guten Morgen。你是谁?6个标记:Heute wird ein guter标记。

要获得德语文本的词性细节,首先使用addPartOfSpeechDetails

documents=addPartOfSpeechDetails(documents);

要查看词性详细信息,请使用令牌详细信息作用

tdetails = tokenDetails(文件);头(tdetails)
ans=8×7表“UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU“1 1 1 1 1 1 1 1 1 1 1标点符号符号符号”Wie“1 2 1字母副词”geht“1 2 1字母动词”es”1 2 1代名词字母“dir”1 2 1代名词字母“?”1 2 1标点符号“dir”

命名实体识别

要向文档添加实体标记,请使用附加细节作用

向德文文本添加命名实体标签

使用标记德语文本tokenizedDocument

str = [“恩斯特·佐格·冯·法兰克福,柏林南部。”“沃尔夫斯堡的大众汽车。”];文档=标记化文档(str);

要向德文文本添加实体标记,请使用附加细节作用此函数用于检测人名、位置、组织和其他命名实体。

文件=附录详情(文件);

要查看实体详细信息,请使用令牌详细信息作用

tdetails = tokenDetails(文件);头(tdetails)
ans=8×8表(UUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU“Ernst”1字母专有名词“zog”1字母动词非实体“von”1字母位置非实体“Frankfurt”“nach”非实体“Berlin”非实体“Berlin”非实体“Besuchen”非实体“Besuchen”非实体“Besuchen”非实体“Besuchen”

查看用实体标记的单词“人”,“位置”,“组织”“其他”.这些词是没有加标签的词“非实体”

idx=tdetails.Entity~=“非实体”;tdetails (idx:)
ans=5×8表Token DocumentNumber SentenceNumber LineNumber Type Language parttofspeech Entity ____________ ______________ ______________ __________ _______ ________ ____________ ____________ "Ernst" 1 1 1 letters de proper-noun person "Frankfurt" 1 1 1 letters de proper-noun location "Berlin" 1 1 1 letters de proper-noun location "Volkswagen" 2 1 1 letters de名词组织“沃尔夫斯堡”2 1个字母专有名词位置

停止语

要根据标记语言细节从文档中删除停止词,请使用移除单词.对于德语停止词的列表设置“语言”选项stopWords“德”

从文档中删除德语停止词

使用标记德语文本tokenizedDocument. 该功能自动检测德语文本。

str = [“早安。你的名字叫什么?”“这是我的线。”];文件= tokenizedDocument (str)
文档=2x1标记化文档:8个标记:Guten Morgen。你是谁?6个标记:Heute wird ein guter标记。

删除使用the的停止词移除单词函数。该函数使用文档中的语言详细信息来确定要删除的语言停止词。

文件= removeStopWords(文档)
documents = 2x1 tokenizedDocument: 5 token: Guten Morgen。可以吗?5代币:Heute wid guter Tag。

堵塞

要根据标记语言细节对标记进行词干,请使用正常化森林

Stem德语文本

标记德语文本使用tokenizedDocument作用该功能自动检测德语文本。

str = [“早安。你的名字叫什么?”“这是我的线。”];文档=标记化文档(str);

使用正常化森林

文档=规范化日志(文档)
文档=2x1标记化文档:8个标记:gut morg。你是谁?6代币:heut wird ein CUT tag。

语言的特性

字与N克计数

这个巴格沃兹巴戈夫克功能支持金宝apptokenizedDocument输入与语言无关。如果你有tokenizedDocument数组中包含您的数据,然后您可以使用这些函数。

建模和预测

这个菲特尔达菲特莎功能支持金宝app巴格沃兹巴戈夫克输入与语言无关。如果你有巴格沃兹巴戈夫克对象,则可以使用这些函数。

这个列车字嵌入功能支持金宝apptokenizedDocument或不考虑语言的文件输入。如果你有tokenizedDocument数组或包含正确格式数据的文件,则可以使用此函数。

另见

||||||

相关的话题