主要内容

语言的注意事项

Text Analytics Toolbox™支金宝app持英语、日语、德语和韩语。大多数文本分析工具箱函数也可以处理其他语言的文本。这个表格总结了如何为其他语言使用文本分析工具箱特性。

功能 语言的考虑 解决方案
标记

令人畏缩的鳕文函数具有内置规则,仅适用于英语、日语、德语和韩语。对于英语和德语文本,是unicode的标记的方法令人畏缩的鳕文使用基于Unicode的规则检测标记®标准附件# 29[1]还有重症监护室的标记器[2],以便更好地检测复杂的标记,如标签和url。对于日文和韩文文本'麦布'令牌化方法使用基于MECAB令终止器的规则来检测令牌[3]

对于其他语言,您仍然可以尝试使用令人畏缩的鳕文.如果令人畏缩的鳕文不会产生有用的结果,然后尝试手动标记文本。创建一个令人畏缩的鳕文从手动授予文本中的数组,设置“TokenizeMethod”选择“没有”

有关更多信息,请参见令人畏缩的鳕文

停止词删除

stopWordsremoveStopWords函数支持英语,日语,金宝app德语和韩语仅限单词。

要从其他语言中去掉停顿词,请使用removeWords并指定您自己的停止单词以删除。

句子检测

addSentenceDetails函数根据标点符号字符和行号信息检测句子边界。对于英语和德语文本,该函数还使用传递给函数的缩写列表。

对于其他语言,您可能需要指定自己的缩写列表以进行句子检测。要做到这一点,使用“缩写”选择addSentenceDetails

有关更多信息,请参见addSentenceDetails

词云

对于字符串输入,wordcloudwordCloudCounts函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。

对于其他语言,您可能需要手动预处理您的文本数据,并指定唯一的单词和相应的大小wordcloud

在。中指定字的大小wordcloud,将数据作为包含唯一单词和相应大小的表或阵列。

有关更多信息,请参见wordcloud

字嵌入

文件输入到trainWordEmbedding函数要求用空格分隔的单词。

对于包含非英语文本的文件,您可能需要输入令人畏缩的鳕文数组来trainWordEmbedding

创建一个令人畏缩的鳕文数组,使用令人畏缩的鳕文功能并设置“TokenizeMethod”选择“没有”

有关更多信息,请参见trainWordEmbedding

关键字提取

rakeKeywords函数只支持英语、日金宝app语、德语和韩语文本。

rakeKeywords函数使用基于分隔符的方法提取关键字,以识别候选关键字。在默认情况下,该函数使用标点字符和由stopWords以输入文档的语言细节作为分隔符。

属性指定适当的分隔符集“分隔符”“MergingDelimiters”选项。

有关更多信息,请参见rakeKeywords

textrankKeywords函数只支持英语、日金宝app语、德语和韩语文本。

textrankKeywords函数通过基于词性标签识别候选关键字来提取关键字。该函数使用的词性标签addpartofspeechdetails.仅支持英语,日语,德语和韩文文金宝app本的功能。

对于其他语言,请尝试使用rakeKeywords属性指定一组适当的分隔符“分隔符”“MergingDelimiters”选项。

有关更多信息,请参见textrankKeywords

语言无关功能

单词和N-Gram计数

bagOfWordsbagOfNgrams功能的支持金宝app令人畏缩的鳕文输入与语言无关。如果你有令人畏缩的鳕文包含数据的数组,然后您可以使用这些功能。

建模与预测

fitldafitlsa功能的支持金宝appbagOfWordsbagOfNgrams输入与语言无关。如果你有bagOfWords或者bagOfNgrams对象,则可以使用这些函数。

trainWordEmbedding功能支持金宝app令人畏缩的鳕文或文件输入,而不管语言。如果你有令人畏缩的鳕文数组或包含正确格式的数据的文件,然后可以使用此函数。

参考

[1]Unicode文本分段https://www.unicode.org/reports/tr29/

[3]MeCab:另一个词性和形态分析器https://taku910.github.io/mecab/

另请参阅

||||||||||

相关话题