日语语言支持- MATLAB & S金宝appimulink - MathWorks金宝app澳大利亚 - 金宝app,下载188bet金宝搏,金宝搏官方网站

日本语言支持金宝app

本主题总结了Text Analytics Toolbox™支持日文文本的特性。金宝app有关如何分析日语文本数据的示例，请参见分析日语文本数据．

标记

的tokenizedDocument功能自动检测日语输入。另外,设置“语言”选项tokenizedDocument来“ja”．此选项指定标记的语言细节。要查看标记的语言细节，请使用tokenDetails．这些语言细节决定removeStopWords，addPartOfSpeechDetails，normalizeWords，addSentenceDetails,addEntityDetails令牌上的函数。

要指定用于标记化的附加MeCab选项，请创建mecabOptions对象。要使用指定的MeCab标记化选项进行标记，请使用“TokenizeMethod”选择tokenizedDocument．

日本标记文本

打开生活的脚本

标记日语文本使用tokenizedDocument．该功能自动检测日语文本。

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)

文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6代币:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。

部分言语细节

的tokenDetails函数，默认情况下，包含带有令牌细节的部分语音细节。

获取部分日语文本的演讲细节

打开生活的脚本

标记日语文本使用tokenizedDocument．

str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文件= tokenizedDocument (str);

对于日语文本，可以使用词类细节来获取tokenDetails．对于英文文本，必须先使用addPartOfSpeechDetails．

tdetails = tokenDetails(文件);头(tdetails)

ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“11 1 punctuation ja punctuation”。“走眼”恋“2 1字母是名词“恋“走眼”のの“2 1字母ja adposition走眼

命名实体识别

的tokenDetails默认情况下，函数包含带有令牌细节的实体细节。

添加命名实体标签日文文本

打开生活的脚本

标记日语文本使用tokenizedDocument．

str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅で鈴木さんに迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];文件= tokenizedDocument (str);

对于日文文本，软件自动添加命名实体标签，所以您不需要使用addEntityDetails函数。该软件检测人名、位置、组织和其他命名实体。要查看实体详细信息，请使用tokenDetails函数。

tdetails = tokenDetails(文件);头(tdetails)

ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言  ____________ ______________ __________ _______ ________ ____________ ____________ __________ " マリー“1 1字母是专有名词“マリー“人”さん“1 1字母是名词“さんは“人”“1 1”字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から”11字母ja adposition“から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼

查看带有实体标记的单词“人”，“位置”，“组织”,或“其他”．这些词是没有标记的词“走眼”．

idx = tdetails。实体~ =“走眼”；tdetails (idx:)。令牌

ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”

停止词

要根据标记语言细节从文档中删除停止词，请使用removeStopWords．对于日语停止词的列表设置“语言”选项stopWords来“ja”．

删除日语停止词

打开生活的脚本

标记日语文本使用tokenizedDocument．该功能自动检测日语文本。

str = [“ここは静かなので,とても穏やかです”“企業内の顧客データを利用し,今年の売り上げを調べることが出来た。”“私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);

删除使用removeStopWords．函数使用的语言细节文档以确定哪一种语言停止了要删除的单词。

文件= removeStopWords(文档)

文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5令牌:先生。英語教え。

词元化

若要根据标记语言细节来义化标记，请使用normalizeWords并设置“风格”选项“引理”．

Lemmatize日本文字

打开生活的脚本

标记日语文本使用tokenizedDocument函数。该功能自动检测日语文本。

str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文件= tokenizedDocument (str);

使用的令牌取义normalizeWords．

文件= normalizeWords(文档)

文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7代币:遠くの駅まで歩けるない。

语言的特性

单词和N-Gram计数

的bagOfWords和bagOfNgrams功能的支持金宝apptokenizedDocument输入与语言无关。如果你有tokenizedDocument数组中包含您的数据，然后您可以使用这些函数。

建模和预测

的fitlda和fitlsa功能的支持金宝appbagOfWords和bagOfNgrams输入与语言无关。如果你有bagOfWords或bagOfNgrams对象，则可以使用这些函数。

的trainWordEmbedding功能支持金宝apptokenizedDocument或文件输入，而不管语言。如果你有tokenizedDocument数组或包含正确格式的数据的文件，然后可以使用此函数。

另请参阅

文本分析工具箱文档

金宝app

入门文本分析在MATLAB

立即下载

日本语言支持金宝app

标记

日本标记文本

部分言语细节

获取部分日语文本的演讲细节

命名实体识别

添加命名实体标签日文文本

停止词

删除日语停止词

词元化

Lemmatize日本文字

语言的特性

单词和N-Gram计数

建模和预测

另请参阅

相关的话题

文本分析工具箱文档

金宝app

入门文本分析在MATLAB