主要内容

日本语言支持金宝app

本主题总结了Text Analytics Toolbox™支持日文文本的特性。金宝app有关如何分析日语文本数据的示例,请参见分析日语文本数据

标记

tokenizedDocument功能自动检测日语输入。另外,设置“语言”选项tokenizedDocument“ja”.此选项指定标记的语言细节。要查看标记的语言细节,请使用tokenDetails这些语言细节决定removeStopWordsaddPartOfSpeechDetailsnormalizeWordsaddSentenceDetails,addEntityDetails令牌上的函数。

要指定用于标记化的附加MeCab选项,请创建mecabOptions对象。要使用指定的MeCab标记化选项进行标记,请使用“TokenizeMethod”选择tokenizedDocument

日本标记文本

标记日语文本使用tokenizedDocument.该功能自动检测日语文本。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)
文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6代币:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。

部分言语细节

tokenDetails函数,默认情况下,包含带有令牌细节的部分语音细节。

获取部分日语文本的演讲细节

标记日语文本使用tokenizedDocument

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文件= tokenizedDocument (str);

对于日语文本,可以使用词类细节来获取tokenDetails.对于英文文本,必须先使用addPartOfSpeechDetails

tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“11 1 punctuation ja punctuation”。“走眼”恋“2 1字母是名词“恋“走眼”のの“2 1字母ja adposition走眼

命名实体识别

tokenDetails默认情况下,函数包含带有令牌细节的实体细节。

添加命名实体标签日文文本

标记日语文本使用tokenizedDocument

str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅で鈴木さんに迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];文件= tokenizedDocument (str);

对于日文文本,软件自动添加命名实体标签,所以您不需要使用addEntityDetails函数。该软件检测人名、位置、组织和其他命名实体。要查看实体详细信息,请使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ____________ ______________ __________ _______ ________ ____________ ____________ __________ " マリー“1 1字母是专有名词“マリー“人”さん“1 1字母是名词“さんは“人”“1 1”字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から”11字母ja adposition“から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼

查看带有实体标记的单词“人”“位置”“组织”,或“其他”.这些词是没有标记的词“走眼”

idx = tdetails。实体~ =“走眼”;tdetails (idx:)。令牌
ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

停止词

要根据标记语言细节从文档中删除停止词,请使用removeStopWords.对于日语停止词的列表设置“语言”选项stopWords“ja”

删除日语停止词

标记日语文本使用tokenizedDocument.该功能自动检测日语文本。

str = [“ここは静かなので,とても穏やかです”“企業内の顧客データを利用し,今年の売り上げを調べることが出来た。”“私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);

删除使用removeStopWords.函数使用的语言细节文档以确定哪一种语言停止了要删除的单词。

文件= removeStopWords(文档)
文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5令牌:先生。英語教え。

词元化

若要根据标记语言细节来义化标记,请使用normalizeWords并设置“风格”选项“引理”

Lemmatize日本文字

标记日语文本使用tokenizedDocument函数。该功能自动检测日语文本。

str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文件= tokenizedDocument (str);

使用的令牌取义normalizeWords

文件= normalizeWords(文档)
文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7代币:遠くの駅まで歩けるない。

语言的特性

单词和N-Gram计数

bagOfWordsbagOfNgrams功能的支持金宝apptokenizedDocument输入与语言无关。如果你有tokenizedDocument数组中包含您的数据,然后您可以使用这些函数。

建模和预测

fitldafitlsa功能的支持金宝appbagOfWordsbagOfNgrams输入与语言无关。如果你有bagOfWordsbagOfNgrams对象,则可以使用这些函数。

trainWordEmbedding功能支持金宝apptokenizedDocument或文件输入,而不管语言。如果你有tokenizedDocument数组或包含正确格式的数据的文件,然后可以使用此函数。

另请参阅

|||||||

相关的话题