Text Analytics Toolbox™支金宝app持英语、日语、德语和韩语。大多数文本分析工具箱函数也可以处理其他语言中的文本。此表总结了如何为其他语言使用文本分析工具箱特性。
功能 | 语言的考虑 | 解决方案 |
---|---|---|
标记 | 的 |
对于其他语言,您仍然可以尝试使用 有关更多信息,请参见 |
停止词删除 | 的 |
从其他语言中删除停止词,使用 |
句子检测 | 的 |
对于其他语言,您可能需要为句子检测指定自己的缩写列表。要做到这一点,使用 有关更多信息,请参见 |
词云 | 对于字符串输入,则 |
对于其他语言,可能需要手动预处理文本数据,并在中指定惟一的单词和相应的大小 中指定字大小 有关更多信息,请参见 |
字嵌入 | 文件输入到 |
对于包含非英文文本的文件,可能需要输入 创建一个 有关更多信息,请参见 |
关键字提取 | 的 |
的 属性指定一组适当的分隔符 有关更多信息,请参见 |
的 |
的 对于其他语言,请尝试使用 有关更多信息,请参见 |
的bagOfWords
和bagOfNgrams
功能的支持金宝apptokenizedDocument
输入不分语言。如果你有tokenizedDocument
数组包含您的数据,然后您可以使用这些函数。
的fitlda
和fitlsa
功能的支持金宝appbagOfWords
和bagOfNgrams
输入不分语言。如果你有bagOfWords
或bagOfNgrams
对象,则可以使用这些函数。
的trainWordEmbedding
功能支持金宝apptokenizedDocument
或文件输入,无论语言。如果你有tokenizedDocument
数组或包含正确格式的数据的文件,则可以使用此函数。
[1]Unicode文本分割.https://www.unicode.org/reports/tr29/
[3]MeCab:另一个词性和形态分析器.https://taku910.github.io/mecab/
addLanguageDetails
|addSentenceDetails
|bagOfNgrams
|bagOfWords
|fitlda
|fitlsa
|normalizeWords
|removeWords
|stopWords
|tokenizedDocument
|wordcloud