主要内容

语言的注意事项

文本分析工具箱™支持语言英语,日语,德语,韩语。金宝app大多数文本分析工具箱函数也使用其他语言文本。这个表总结了如何使用文本分析工具箱功能,为其他语言。

功能 语言的考虑 解决方案
标记

tokenizedDocument函数的内置规则英语、日语、德语,韩语。英语和德语文本的unicode的标记的方法tokenizedDocument基于Unicode检测标记使用规则®标准附件# 29[1]和ICU记号赋予器[2]、修改以更好地检测复杂的令牌,比如标签和url。日本和韩国文字的“mecab”标记方法检测标记使用规则基于MeCab记号赋予器[3]

为其他语言,你仍然可以尝试使用tokenizedDocument。如果tokenizedDocument不会产生有用的结果,然后尝试手动分词文本。创建一个tokenizedDocument数组从手动标记化的文本设置“TokenizeMethod”选项“没有”

有关更多信息,请参见tokenizedDocument

停止词删除

stopWordsremoveStopWords函数支持英语、日语、金宝app德语,和韩国停止的话。

删除其他语言阻止的话,使用removeWords并指定自己的停止词删除。

句子检测

addSentenceDetails功能检测句子边界基于标点符号和行号信息。英语和德语文本,函数也使用缩写的列表传递给函数。

对于其他语言,您可能需要指定自己的句子的缩写列表检测。要做到这一点,使用“缩写”选择addSentenceDetails

有关更多信息,请参见addSentenceDetails

词云

字符串输入的wordcloudwordCloudCounts函数使用英语,日语,德语,和韩国的标记,停止词删除,规范化。

为其他语言,你可能需要手动进行预处理文本数据,指定独特的单词和相应的尺寸wordcloud

指定字的大小wordcloud,输入你的数据表或数组包含独特的单词和相应的尺寸。

有关更多信息,请参见wordcloud

字嵌入

文件的输入trainWordEmbedding函数需要单词空格隔开。

对于文件包含非英语文本,您可能需要输入tokenizedDocument数组来trainWordEmbedding

创建一个tokenizedDocument数组从pretokenized文本使用tokenizedDocument功能和设置“TokenizeMethod”选项“没有”

有关更多信息,请参见trainWordEmbedding

关键字提取

rakeKeywords函数支持英语、日语金宝app、德语,和韩国的文本。

rakeKeywords函数提取关键字使用delimiter-based识别候选关键字的方法。这个函数,默认情况下,使用的标点符号和停用词stopWords与语言的语言输入文档的细节作为分隔符。

对于其他语言,指定一组适当的分隔符使用分隔符MergingDelimiters选项。

有关更多信息,请参见rakeKeywords

textrankKeywords函数支持英语、日语金宝app、德语,和韩国的文本。

textrankKeywords函数提取关键词识别候选关键字基于词性标记。的函数使用词性标记addPartOfSpeechDetails功能,支持英语、日语、德语,和金宝app韩国的文本。

为其他语言,尝试使用rakeKeywords相反,并指定一组适当的分隔符使用“分隔符”“MergingDelimiters”选项。

有关更多信息,请参见textrankKeywords

语言的特性

单词和语法计数

bagOfWordsbagOfNgrams功能的支持金宝apptokenizedDocument输入的语言。如果你有一个tokenizedDocument数组包含您的数据,那么您可以使用这些功能。

建模和预测

fitldafitlsa功能的支持金宝appbagOfWordsbagOfNgrams输入的语言。如果你有一个bagOfWordsbagOfNgrams对象包含您的数据,那么您可以使用这些功能。

trainWordEmbedding功能支持金宝apptokenizedDocument无论语言或文件输入。如果你有一个tokenizedDocument数组或包含您的数据文件以正确的格式,那么您可以使用这个函数。

引用

[1]Unicode文本分割https://www.unicode.org/reports/tr29/

[3]MeCab:另一种词性和形态分析仪https://taku910.github.io/mecab/

另请参阅

||||||||||

相关的话题