本主题总结了Text Analytics Toolbox™支持日文文本的特性。金宝app有关如何分析日语文本数据的示例,请参见分析日语文本数据.
的tokenizedDocument
功能自动检测日语输入。另外,设置“语言”
选项tokenizedDocument
来“ja”
.此选项指定标记的语言细节。要查看标记的语言细节,请使用tokenDetails
.这些语言细节决定removeStopWords
,addPartOfSpeechDetails
,normalizeWords
,addSentenceDetails
,addEntityDetails
令牌上的函数。
要指定用于标记化的附加MeCab选项,请创建mecabOptions
对象。要使用指定的MeCab标记化选项进行标记,请使用“TokenizeMethod”
选择tokenizedDocument
.
标记日语文本使用tokenizedDocument
.该功能自动检测日语文本。
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”];文件= tokenizedDocument (str)
文件= 4 x1 tokenizedDocument: 6令牌:恋に悩み,苦しむ。6代币:恋の悩みで苦しむ。10令牌:空に星が輝き,瞬いている。10令牌:空の星が輝きを増している。
的tokenDetails
函数,默认情况下,包含带有令牌细节的部分语音细节。
标记日语文本使用tokenizedDocument
.
str = [“恋に悩み,苦しむ。”“恋の悩みで苦しむ。”“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”“すもももももももものうち。”];文件= tokenizedDocument (str);
对于日语文本,可以使用词类细节来获取tokenDetails
.对于英文文本,必须先使用addPartOfSpeechDetails
.
tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言 _______ ______________ __________ ___________ ________ ____________ _______ __________ " 恋“1 1字母是名词“恋“走眼”に“1 1”字母ja adpositionに“走眼”悩み“1 1字母是动词“悩む“走眼”、“1 1标点ja标点符号”、“走眼”苦しむ“1 1字母是动词“苦しむ“走眼”。“11 1 punctuation ja punctuation”。“走眼”恋“2 1字母是名词“恋“走眼”のの“2 1字母ja adposition走眼
的tokenDetails
默认情况下,函数包含带有令牌细节的实体细节。
标记日语文本使用tokenizedDocument
.
str = [“マリーさんはボストンからニューヨークに引っ越しました。”“駅で鈴木さんに迎えに行きます。”“東京は大阪より大きいですか?”“東京に行った時,新宿や渋谷などいろいろな所を訪れました。”];文件= tokenizedDocument (str);
对于日文文本,软件自动添加命名实体标签,所以您不需要使用addEntityDetails
函数。该软件检测人名、位置、组织和其他命名实体。要查看实体详细信息,请使用tokenDetails
函数。
tdetails = tokenDetails(文件);头(tdetails)
ans =8×8表令牌DocumentNumber LineNumber PartOfSpeech引理实体类型语言 ____________ ______________ __________ _______ ________ ____________ ____________ __________ " マリー“1 1字母是专有名词“マリー“人”さん“1 1字母是名词“さんは“人”“1 1”字母ja adpositionは“走眼”ボストン“1 1字母是专有名词“ボストン“位置”から”11字母ja adposition“から“走眼”ニューヨーク“1 1字母是专有名词“ニューヨーク“位置”に“1 1字母ja adpositionに“走眼”引っ越し“1 1字母是动词“引っ越す“走眼
查看带有实体标记的单词“人”
,“位置”
,“组织”
,或“其他”
.这些词是没有标记的词“走眼”
.
idx = tdetails。实体~ =“走眼”;tdetails (idx:)。令牌
ans =11 x1字符串“マリー”“さん”“ボストン”“ニューヨーク”“鈴木”“さん”“東京”“大阪”“東京”“新宿”“渋谷”
要根据标记语言细节从文档中删除停止词,请使用removeStopWords
.对于日语停止词的列表设置“语言”
选项stopWords
来“ja”
.
标记日语文本使用tokenizedDocument
.该功能自动检测日语文本。
str = [“ここは静かなので,とても穏やかです”“企業内の顧客データを利用し,今年の売り上げを調べることが出来た。”“私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);
删除使用removeStopWords
.函数使用的语言细节文档
以确定哪一种语言停止了要删除的单词。
文件= removeStopWords(文档)
文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5令牌:先生。英語教え。
若要根据标记语言细节来义化标记,请使用normalizeWords
并设置“风格”
选项“引理”
.
标记日语文本使用tokenizedDocument
函数。该功能自动检测日语文本。
str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”];文件= tokenizedDocument (str);
使用的令牌取义normalizeWords
.
文件= normalizeWords(文档)
文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7代币:遠くの駅まで歩けるない。
的bagOfWords
和bagOfNgrams
功能的支持金宝apptokenizedDocument
输入与语言无关。如果你有tokenizedDocument
数组中包含您的数据,然后您可以使用这些函数。
的fitlda
和fitlsa
功能的支持金宝appbagOfWords
和bagOfNgrams
输入与语言无关。如果你有bagOfWords
或bagOfNgrams
对象,则可以使用这些函数。
的trainWordEmbedding
功能支持金宝apptokenizedDocument
或文件输入,而不管语言。如果你有tokenizedDocument
数组或包含正确格式的数据的文件,然后可以使用此函数。
tokenizedDocument
|removeStopWords
|stopWords
|addPartOfSpeechDetails
|tokenDetails
|normalizeWords
|addLanguageDetails
|addEntityDetails