主要内容

日语支持金宝app

本主题总结了支持日语文本的文本分析工具箱™功能。金宝app有关展示如何分析日文文本数据的示例,请参阅分析日语文本数据

象征化

tokenizedDocument功能自动检测日本输入。或者,设置'语'选项tokenizedDocument'JA'。此选项指定标记的语言细节。要查看标记的语言细节,请使用令敬当这些语言详细信息决定了行为Removestopwords.addPartOfSpeechDetails正常化字AddsentEnCentails.,添加性达尔令牌上的函数。

要为令牌化指定其他MECAB选项,请创建一个mecabOptions目的。要使用指定的MECAB标记选项授权,请使用'tokenizemethod'选择tokenizedDocument

象征日语文本

用来象征日语文本tokenizedDocument。该功能会自动检测日文文本。

str = [“恋恋に,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が辉きを増している。”];文件= tokenizedDocument (str)
文档= 4x1令牌地区:6个代币:恋に悩み,苦しむ。6令牌:恋の悩みで苦しむ。10令牌:空に星が辉き,瞬いている。10令牌:空の星が辉きをてているいる。

言语细节部分

令敬当默认情况下,函数包含令牌详细信息的致辞详细信息的一部分。

获得日语文本的讲话细节的一部分

用来象征日语文本tokenizedDocument

str = [“恋恋に,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が辉きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文档=令授权鳕(str);

对于日文文本,您可以使用讲话细节令敬当。对于英文文本,必须先使用addPartOfSpeechDetails

tdetails = tokenDetails(文件);头(tdetails)
ans =.8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“十一标点符号就是标点符号”。“走眼”恋“2 1字母是名词“恋“走眼”のの“2 1字母ja adposition走眼

命名实体识别

令敬当默认情况下,函数包含令牌详细信息的实体详细信息。

将命名实体标记添加到日语文本

用来象征日语文本tokenizedDocument

str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅駅で铃木铃木さんに迎えにきき”““东京は大厦より大厦ですか?”“东莞に行っ时,新宿や渋谷などいろいろな所访れました。”];文档=令授权鳕(str);

对于日文文本,软件自动添加命名实体标记,因此您无需使用添加性达尔函数。该软件检测人员名称,位置,组织和其他命名实体。要查看实体详细信息,请使用令敬当函数。

tdetails = tokenDetails(文件);头(tdetails)
ans =.8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ____________ ______________ __________ _______ ________ ____________ ____________ __________ " マリー“1 1字母是专有名词“マリー“人”さん“1 1字母是名词“さんは“人”“1 1”字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から”11字母ja adposition“から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼

查看标记为实体的单词“人”“地点”“组织”, 或者“其他”。这些单词是没有标记的单词“非实体”

idx = tdetails.entity〜=“非实体”;tdetails (idx:)。令牌
ans =.11x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

停止单词

若要根据标记语言细节从文档中删除停止词,请使用Removestopwords.。对于日本止损单的列表设置'语'选项stopWords'JA'

删除日语停止单词

用来象征日语文本tokenizedDocument。该功能会自动检测日文文本。

str = [“ここは静かなので,とても穏やかです”“企业内の顾客データデータ利用し,长年の売り上げ调べる渊来た。”“私は先生です。私は英语を教えてますます。”];文档=令授权鳕(str);

使用删除停止单词Removestopwords.。该函数使用语言详细信息文件确定要删除的语言停止词。

文件= removeStopWords(文档)
文档= 3x1令牌Document:4令牌:静か,とても穏やか10代币:企业顾客顾客利用,今年売り上げ出源。5令牌:先生。英文教え。

lemmatization.

根据令牌语言细节释放令牌,使用正常化字并设置了'风格'选项'引理'

lemmatize日语文本

使用授权日本文本tokenizedDocument函数。该功能会自动检测日文文本。

str = [“空に星が輝き,瞬いている。”“空の星が辉きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文档=令授权鳕(str);

让令牌使用正常化字

文档= rangerizewords(文档)
文档= 4x1令牌Document:10令牌:空空星が辉く,瞬くている。10令牌:空の星が辉きをている。9令牌:駅までは远いて,歩けるない。7令牌:远く远く駅まで歩けるない。

语言的特性

单词和n-gram计数

Bagofwords.Bagofngrams.功能支持金宝apptokenizedDocument输入不分语言。如果你有一个tokenizedDocument数组包含您的数据,然后您可以使用这些函数。

建模和预测

菲达Fitlsa.功能支持金宝appBagofwords.Bagofngrams.输入不分语言。如果你有一个Bagofwords.Bagofngrams.包含数据的对象,然后可以使用这些函数。

训练喜勒姆贝斯丁功能支持金宝apptokenizedDocument或文件输入无论语言如何。如果你有一个tokenizedDocument数组或包含数据格式的数据的文件,然后可以使用此功能。

也可以看看

|||||||

相关的话题