主要内容

语言考虑因素

文本分析工具箱™支持英语,日语,德语和韩语。金宝app大多数文本分析工具箱功能也与其他语言的文本。下表总结了如何使用文本分析工具箱功能的其他语言。

特征 语言的思考 解决方法
符号化

tokenizedDocument功能内置规则为英语,日语,德语和韩文版。对于英语和德语文字中,“统一”的标记化方法tokenizedDocument器基于使用Unicode的规则令牌®标准附件#29[1]和ICU分词器[2]修改以更好地检测复杂的令牌如主题标签和URL。对于日本和韩国文字,在“mecab”标记化方法使用基于MeCab标记器的规则检测标记[3]

对于其他语言,您仍然可以尝试使用tokenizedDocument。如果tokenizedDocument不会产生有用的结果,然后尝试手动标记化的文本。要创建tokenizedDocument数组中手动标记的文本,设置'TokenizeMethod'选项'没有任何'

有关更多信息,请参阅tokenizedDocument

停止词删除

停用词Removestopwords.函数只支持英语、日语金宝app、德语和韩语的停止词。

若要从其他语言,使用的停止词removeWords并指定你自己要删除的停止词。

句子检测

AddsentEnCentails.函数根据标点符号和行号信息检测句子边界。对于英语和德语文本,函数还使用传递给函数的缩写列表。

对于其他语言,你可能需要指定你自己的缩写句检测的名单。为此,使用“缩写”的选择AddsentEnCentails.

有关更多信息,请参阅AddsentEnCentails.

字云

对于字符串输入时,WordCloud.wordCloudCounts功能使用英语,日语,德语,韩语标记化,停止词删除,和字规范化。

对于其他语言,您可能需要手动的进行预处理的文本数据,并指定唯一的单词和相应的尺寸WordCloud.

要指定字长的WordCloud.,将数据输入为包含唯一单词和相应大小的表或数组。

有关更多信息,请参阅WordCloud.

Word中的嵌入

文件输入到trainWordEmbedding功能需要由空格隔开字。

对于含有非英文文本文件,则可能需要输入tokenizedDocument数组trainWordEmbedding

要创建tokenizedDocument从pretokenized文本阵列,请使用tokenizedDocument函数,并设置'TokenizeMethod'选项'没有任何'

有关更多信息,请参阅trainWordEmbedding

关键字提取

rakeKeywords功能支持英语,日语金宝app,德语,只有韩国文字。

rakeKeywords使用基于分隔符的方法函数提取关键词,以确定候选关键词。该功能默认情况下,使用标点符号和给定的停止词停用词由输入文件作为分隔符的语言细节给定的语言。

对于其他语言,指定一个合适的组使用分隔符“分隔符”'MergingDelimiters'选项。

有关更多信息,请参阅rakeKeywords

textrankKeywords功能支持英语,日语金宝app,德语,只有韩国文字。

textrankKeywords功能提取关键词通过基于部分的语音其标签候选项的关键词。该函数使用由给定部分的语音标签addPartOfSpeechDetails功能支持英语,日语,德语,韩语金宝app文字而已。

对于其他语言,请尝试使用rakeKeywords代替,并指定一个合适的组使用分隔符“分隔符”'MergingDelimiters'选项。

有关更多信息,请参阅textrankKeywords

语言的特性

Word和n元计数

Bagofwords.bagOfNgrams功能支持金宝apptokenizedDocument输入语言无关。如果你有一个tokenizedDocument数组中包含您的数据,然后您可以使用这些函数。

建模和预测

菲达fitlsa功能支持金宝appBagofwords.bagOfNgrams输入语言无关。如果你有一个Bagofwords.bagOfNgrams对象包含数据,那么你可以使用这些功能。

trainWordEmbedding功能支持金宝apptokenizedDocument或文件输入语言无关。如果你有一个tokenizedDocument数组或包含在正确格式的数据文件,那么你可以使用此功能。

参考文献

[1]Unicode文本分割https://www.unicode.org/reports/tr29/

[3]仲裁处:然而,部分的词性和词法分析器的另一https://taku910.github.io/mecab/

也可以看看

||||||||||

相关的话题