韩语支持金宝app
本主题总结了文本分析工具箱™支持韩语文本的功能。金宝app
标记
的tokenizedDocument
功能自动检测韩语输入。或者,设置“语言”
选项tokenizedDocument
来“柯”
.此选项指定令牌的语言细节。要查看令牌的语言详细信息,请使用tokenDetails
.这些语言细节决定的行为removeStopWords
,addPartOfSpeechDetails
,normalizeWords
,addSentenceDetails
,addEntityDetails
函数。
要指定用于标记化的其他MeCab选项,请创建mecabOptions
对象。若要使用指定的MeCab标记化选项进行标记,请使用“TokenizeMethod”
选择tokenizedDocument
.
演讲部分细节
的tokenDetails
函数,默认情况下,包含词性细节和令牌细节。
命名实体识别
的tokenDetails
函数在默认情况下包含带有令牌详细信息的实体详细信息。
停止词
若要根据标记语言详细信息从文档中删除停止词,请使用removeStopWords
.对于韩国语停止词列表,请设置“语言”
选项stopWords
来“柯”
.
词元化
若要根据令牌语言详细信息来归纳令牌,请使用normalizeWords
并设置“风格”
选项“引理”
.
语言的特性
单词和N-Gram计数
的bagOfWords
而且bagOfNgrams
功能的支持金宝apptokenizedDocument
不考虑语言的输入。如果你有tokenizedDocument
数组包含您的数据,然后您可以使用这些函数。
建模与预测
的fitlda
而且fitlsa
功能的支持金宝appbagOfWords
而且bagOfNgrams
不考虑语言的输入。如果你有bagOfWords
或bagOfNgrams
对象,然后可以使用这些函数。
的trainWordEmbedding
功能支持金宝apptokenizedDocument
或文件输入,而不考虑语言。如果你有tokenizedDocument
数组或包含正确格式的数据的文件,则可以使用此函数。
另请参阅
tokenizedDocument
|removeStopWords
|stopWords
|addPartOfSpeechDetails
|tokenDetails
|normalizeWords
|addLanguageDetails
|addEntityDetails