语言考虑- MATLAB & Simulink - MathWorks金宝app Benelux - 金宝app,下载188bet金宝搏,金宝搏官方网站

语言考虑因素

文本分析工具箱™支持英语，日语，德语和韩语。金宝app大多数文本分析工具箱功能也与其他语言的文本。下表总结了如何使用文本分析工具箱功能的其他语言。

特征	语言的思考	解决方法
符号化	这`tokenizedDocument`功能内置规则为英语，日语，德语和韩文版。对于英语和德语文字中，`“统一”`的标记化方法`tokenizedDocument`器基于使用Unicode的规则令牌^®标准附件＃29[1]和ICU分词器[2]修改以更好地检测复杂的令牌如主题标签和URL。对于日本和韩国文字，在`“mecab”`标记化方法使用基于MeCab标记器的规则检测标记[3]。	对于其他语言，您仍然可以尝试使用`tokenizedDocument`。如果`tokenizedDocument`不会产生有用的结果，然后尝试手动标记化的文本。要创建`tokenizedDocument`数组中手动标记的文本，设置`'TokenizeMethod'`选项`'没有任何'`。有关更多信息，请参阅`tokenizedDocument`。
停止词删除	这`停用词`和`Removestopwords.`函数只支持英语、日语金宝app、德语和韩语的停止词。	若要从其他语言，使用的停止词`removeWords`并指定你自己要删除的停止词。
句子检测	这`AddsentEnCentails.`函数根据标点符号和行号信息检测句子边界。对于英语和德语文本，函数还使用传递给函数的缩写列表。	对于其他语言，你可能需要指定你自己的缩写句检测的名单。为此，使用`“缩写”`的选择`AddsentEnCentails.`。有关更多信息，请参阅`AddsentEnCentails.`。
字云	对于字符串输入时，`WordCloud.`和`wordCloudCounts`功能使用英语，日语，德语，韩语标记化，停止词删除，和字规范化。	对于其他语言，您可能需要手动的进行预处理的文本数据，并指定唯一的单词和相应的尺寸`WordCloud.`。要指定字长的`WordCloud.`，将数据输入为包含唯一单词和相应大小的表或数组。有关更多信息，请参阅`WordCloud.`。
Word中的嵌入	文件输入到`trainWordEmbedding`功能需要由空格隔开字。	对于含有非英文文本文件，则可能需要输入`tokenizedDocument`数组`trainWordEmbedding`。要创建`tokenizedDocument`从pretokenized文本阵列，请使用`tokenizedDocument`函数，并设置`'TokenizeMethod'`选项`'没有任何'`。有关更多信息，请参阅`trainWordEmbedding`。
关键字提取	这`rakeKeywords`功能支持英语，日语金宝app，德语，只有韩国文字。	这`rakeKeywords`使用基于分隔符的方法函数提取关键词，以确定候选关键词。该功能默认情况下，使用标点符号和给定的停止词`停用词`由输入文件作为分隔符的语言细节给定的语言。对于其他语言，指定一个合适的组使用分隔符`“分隔符”`和`'MergingDelimiters'`选项。有关更多信息，请参阅`rakeKeywords`。
关键字提取	这`textrankKeywords`功能支持英语，日语金宝app，德语，只有韩国文字。	这`textrankKeywords`功能提取关键词通过基于部分的语音其标签候选项的关键词。该函数使用由给定部分的语音标签`addPartOfSpeechDetails`功能支持英语，日语，德语，韩语金宝app文字而已。对于其他语言，请尝试使用`rakeKeywords`代替，并指定一个合适的组使用分隔符`“分隔符”`和`'MergingDelimiters'`选项。有关更多信息，请参阅`textrankKeywords`。