语言考虑- MATLAB & Simulink - MathWorks金宝app Australia - 金宝app,下载188bet金宝搏,金宝搏官方网站

语言的注意事项

Text Analytics Toolbox™支金宝app持英语、日语、德语和韩语。大多数文本分析工具箱函数也可以处理其他语言的文本。这个表格总结了如何为其他语言使用文本分析工具箱特性。

功能	语言的考虑	解决方案
标记	的`令人畏缩的鳕文`函数具有内置规则，仅适用于英语、日语、德语和韩语。对于英语和德语文本，是`unicode的`标记的方法`令人畏缩的鳕文`使用基于Unicode的规则检测标记^®标准附件# 29[1]还有重症监护室的标记器［2］，以便更好地检测复杂的标记，如标签和url。对于日文和韩文文本`'麦布'`令牌化方法使用基于MECAB令终止器的规则来检测令牌［3］．	对于其他语言，您仍然可以尝试使用`令人畏缩的鳕文`．如果`令人畏缩的鳕文`不会产生有用的结果，然后尝试手动标记文本。创建一个`令人畏缩的鳕文`从手动授予文本中的数组，设置`“TokenizeMethod”`选择`“没有”`．有关更多信息，请参见`令人畏缩的鳕文`．
停止词删除	的`stopWords`和`removeStopWords`函数支持英语，日语，金宝app德语和韩语仅限单词。	要从其他语言中去掉停顿词，请使用`removeWords`并指定您自己的停止单词以删除。
句子检测	的`addSentenceDetails`函数根据标点符号字符和行号信息检测句子边界。对于英语和德语文本，该函数还使用传递给函数的缩写列表。	对于其他语言，您可能需要指定自己的缩写列表以进行句子检测。要做到这一点，使用`“缩写”`选择`addSentenceDetails`．有关更多信息，请参见`addSentenceDetails`．
词云	对于字符串输入，`wordcloud`和`wordCloudCounts`函数使用英语、日语、德语和韩语标记化、停止单词删除和单词规范化。	对于其他语言，您可能需要手动预处理您的文本数据，并指定唯一的单词和相应的大小`wordcloud`．在。中指定字的大小`wordcloud`，将数据作为包含唯一单词和相应大小的表或阵列。有关更多信息，请参见`wordcloud`．
字嵌入	文件输入到`trainWordEmbedding`函数要求用空格分隔的单词。	对于包含非英语文本的文件，您可能需要输入`令人畏缩的鳕文`数组来`trainWordEmbedding`．创建一个`令人畏缩的鳕文`数组，使用`令人畏缩的鳕文`功能并设置`“TokenizeMethod”`选择`“没有”`．有关更多信息，请参见`trainWordEmbedding`．
关键字提取	的`rakeKeywords`函数只支持英语、日金宝app语、德语和韩语文本。	的`rakeKeywords`函数使用基于分隔符的方法提取关键字，以识别候选关键字。在默认情况下，该函数使用标点字符和由`stopWords`以输入文档的语言细节作为分隔符。属性指定适当的分隔符集`“分隔符”`和`“MergingDelimiters”`选项。有关更多信息，请参见`rakeKeywords`．
关键字提取	的`textrankKeywords`函数只支持英语、日金宝app语、德语和韩语文本。	的`textrankKeywords`函数通过基于词性标签识别候选关键字来提取关键字。该函数使用的词性标签`addpartofspeechdetails.`仅支持英语，日语，德语和韩文文金宝app本的功能。对于其他语言，请尝试使用`rakeKeywords`属性指定一组适当的分隔符`“分隔符”`和`“MergingDelimiters”`选项。有关更多信息，请参见`textrankKeywords`．