词干或词根化
使用normalizeWords
将单词简化为词根。来lemmatize英语单词(将它们缩减到字典形式),设置“风格”
选项“引理”
.
该函数支持英语、日语、德语金宝app和韩语文本。
简化了updatedDocuments
= normalizeWords (文档
)文档
到一个根形式。对于英语和德语文本,默认情况下,该函数分别对使用波特词干符的英语和德语文本的单词进行词干。对于日语和韩语文本,默认情况下,该函数使用MeCab标记器对单词进行词根化。
减少字符串数组中的每个单词updatedWords
= normalizeWords (单词
)单词
到一个根形式。
减少单词并指定单词语言。updatedWords
= normalizeWords (单词
“语言”,语言
)
removeStopWords
|tokenDetails
|removeWords
|stopWords
|removeShortWords
|removeLongWords
|tokenizedDocument
|bagOfWords
|bagOfNgrams
|addPartOfSpeechDetails
|addLemmaDetails