停止词表
像“a”、“and”、“to”和“the”这样的词(也就是停止词)会给数据增加干扰。使用停止单词列表来帮助创建自定义单词列表,以便在分析之前删除。
若要使用文档的语言细节从标记化文档中删除默认的停止词列表,请使用removeStopWords
。要标记化的文档,使用删除单词的自定义列表removeWords
。
该函数返回英语、日语、德语和韩语停止单词列表。
removeStopWords
|removeWords
|removeShortWords
|removelongwords.
|正常化字
|tokenizedDocument
|Bagofwords.
|bagOfNgrams