词干提取是一种文本规范化技术自然语言处理它将单词还原为词根。词干提取主要是通过删除单词的词缀,这可能导致一个无效的字典单词。例如,在词干分析时,单词“requires”、“required”和“requirement”会减少为“require”。
词干通常用于:
- 信息检索,其中词根词作为同义词,以扩大搜索条件
- 用于降低维数的工程应用程序,其中词干提取导致更少的词被跟踪,并在机器学习算法的模型中使用
波特stemmer算法是英语语言中最流行的词干提取方法之一,它基于简单的启发式规则。这种堵漏方法速度快,但并不总是准确的。在随后的几年里,人们又提出了许多其他算法,但波特的词干提取算法因其速度快、简单而仍然很受欢迎。
词干化的一个相关但更复杂的方法是词干化。而相比,
- 分词法使用词汇和形态分析,词干法使用简单的启发式规则
- 词干化返回单词的字典形式,而词干化可能导致无效单词
义理化和词干化的区别如下所示。
实际的词 | 词元化 | 阻止 |
---|---|---|
要求 | 需要 | 要求 |
要求 | 需要 | 要求 |
要求 | 要求 | 要求 |
要了解更多关于词干提取和使用文本数据构建模型的信息,请参见文本分析工具箱™.