主要内容

语言的注意事项

Text Analytics Toolbox™支金宝app持英语、日语、德语和韩语。大多数文本分析工具箱函数也可以处理其他语言中的文本。此表总结了如何为其他语言使用文本分析工具箱特性。

功能 语言的考虑 解决方案
标记

tokenizedDocument函数有内建的规则,只适用于英语、日语、德语和韩语。对于英语和德语文本unicode的标记的方法tokenizedDocument使用基于Unicode的规则检测令牌®标准附件# 29[1]以及重症监护室的记号器[2],以更好地检测复杂的标记,如hashtag和url。对于日文和韩文文本“mecab”标记化方法基于MeCab标记赋予器使用规则检测标记[3]

对于其他语言,您仍然可以尝试使用tokenizedDocument.如果tokenizedDocument不会产生有用的结果,请尝试手动标记文本。创建一个tokenizedDocument数组从手动标记文本,设置“TokenizeMethod”选项“没有”

有关更多信息,请参见tokenizedDocument

停止词删除

stopWordsremoveStopWords功能支持英语,日语,金宝app德语,和韩语停止词仅。

从其他语言中删除停止词,使用removeWords并指定要删除的停止词。

句子检测

addSentenceDetails函数基于标点字符和行号信息检测句子边界。对于英语和德语文本,函数还使用传递给函数的缩写列表。

对于其他语言,您可能需要为句子检测指定自己的缩写列表。要做到这一点,使用“缩写”选择addSentenceDetails

有关更多信息,请参见addSentenceDetails

词云

对于字符串输入,则wordcloudwordCloudCounts函数使用英语、日语、德语和韩语的标记化、停止单词移除和单词规范化。

对于其他语言,可能需要手动预处理文本数据,并在中指定惟一的单词和相应的大小wordcloud

中指定字大小wordcloud,将数据作为包含唯一单词和相应大小的表或数组输入。

有关更多信息,请参见wordcloud

字嵌入

文件输入到trainWordEmbedding函数需要用空格分隔的单词。

对于包含非英文文本的文件,可能需要输入tokenizedDocument数组来trainWordEmbedding

创建一个tokenizedDocument数组从预标记文本,使用tokenizedDocument函数,并设置“TokenizeMethod”选项“没有”

有关更多信息,请参见trainWordEmbedding

关键字提取

rakeKeywords函数只支持英语、日金宝app语、德语和韩语文本。

rakeKeywords函数使用基于分隔符的方法提取关键字来识别候选关键字。默认情况下,该函数使用标点符号和由stopWords语言由输入文档的语言细节作为分隔符给出。

属性指定一组适当的分隔符“分隔符”“MergingDelimiters”选项。

有关更多信息,请参见rakeKeywords

textrankKeywords函数只支持英语、日金宝app语、德语和韩语文本。

textrankKeywordsFunction通过识别候选关键词的词性标签来提取关键词。函数使用由addPartOfSpeechDetails功能,只支持英语、日语、德语和金宝app韩语文本。

对于其他语言,请尝试使用rakeKeywords属性指定一组适当的分隔符“分隔符”“MergingDelimiters”选项。

有关更多信息,请参见textrankKeywords

语言的特性

单词和N-Gram计数

bagOfWordsbagOfNgrams功能的支持金宝apptokenizedDocument输入不分语言。如果你有tokenizedDocument数组包含您的数据,然后您可以使用这些函数。

建模和预测

fitldafitlsa功能的支持金宝appbagOfWordsbagOfNgrams输入不分语言。如果你有bagOfWordsbagOfNgrams对象,则可以使用这些函数。

trainWordEmbedding功能支持金宝apptokenizedDocument或文件输入,无论语言。如果你有tokenizedDocument数组或包含正确格式的数据的文件,则可以使用此函数。

参考文献

[1]Unicode文本分割https://www.unicode.org/reports/tr29/

[3]MeCab:另一个词性和形态分析器https://taku910.github.io/mecab/

另请参阅

||||||||||

相关的话题