语言因素- MATLAB和Simulink MathWorks瑞士金宝app - 金宝app,下载188bet金宝搏,金宝搏官方网站

语言的注意事项

文本分析工具箱™支持语言英语,日语,德语,韩语。金宝app大多数文本分析工具箱函数也使用其他语言文本。这个表总结了如何使用文本分析工具箱功能,为其他语言。

功能	语言的考虑	解决方案
标记	的`tokenizedDocument`函数的内置规则英语、日语、德语,韩语。英语和德语文本的`unicode的`标记的方法`tokenizedDocument`基于Unicode检测标记使用规则^®标准附件# 29[1]和ICU记号赋予器[2]、修改以更好地检测复杂的令牌,比如标签和url。日本和韩国文字的`“mecab”`标记方法检测标记使用规则基于MeCab记号赋予器[3]。	为其他语言,你仍然可以尝试使用`tokenizedDocument`。如果`tokenizedDocument`不会产生有用的结果,然后尝试手动分词文本。创建一个`tokenizedDocument`数组从手动标记化的文本设置`“TokenizeMethod”`选项`“没有”`。有关更多信息,请参见`tokenizedDocument`。
停止词删除	的`stopWords`和`removeStopWords`函数支持英语、日语、金宝app德语,和韩国停止的话。	删除其他语言阻止的话,使用`removeWords`并指定自己的停止词删除。
句子检测	的`addSentenceDetails`功能检测句子边界基于标点符号和行号信息。英语和德语文本,函数也使用缩写的列表传递给函数。	对于其他语言,您可能需要指定自己的句子的缩写列表检测。要做到这一点,使用`“缩写”`选择`addSentenceDetails`。有关更多信息,请参见`addSentenceDetails`。
词云	字符串输入的`wordcloud`和`wordCloudCounts`函数使用英语,日语,德语,和韩国的标记,停止词删除,规范化。	为其他语言,你可能需要手动进行预处理文本数据,指定独特的单词和相应的尺寸`wordcloud`。指定字的大小`wordcloud`,输入你的数据表或数组包含独特的单词和相应的尺寸。有关更多信息,请参见`wordcloud`。
字嵌入	文件的输入`trainWordEmbedding`函数需要单词空格隔开。	对于文件包含非英语文本,您可能需要输入`tokenizedDocument`数组来`trainWordEmbedding`。创建一个`tokenizedDocument`数组从pretokenized文本使用`tokenizedDocument`功能和设置`“TokenizeMethod”`选项`“没有”`。有关更多信息,请参见`trainWordEmbedding`。
关键字提取	的`rakeKeywords`函数支持英语、日语金宝app、德语,和韩国的文本。	的`rakeKeywords`函数提取关键字使用delimiter-based识别候选关键字的方法。这个函数,默认情况下,使用的标点符号和停用词`stopWords`与语言的语言输入文档的细节作为分隔符。对于其他语言,指定一组适当的分隔符使用`分隔符`和`MergingDelimiters`选项。有关更多信息,请参见`rakeKeywords`。
关键字提取	的`textrankKeywords`函数支持英语、日语金宝app、德语,和韩国的文本。	的`textrankKeywords`函数提取关键词识别候选关键字基于词性标记。的函数使用词性标记`addPartOfSpeechDetails`功能,支持英语、日语、德语,和金宝app韩国的文本。为其他语言,尝试使用`rakeKeywords`相反,并指定一组适当的分隔符使用`“分隔符”`和`“MergingDelimiters”`选项。有关更多信息,请参见`textrankKeywords`。