词干提取指的是一种文本规范化技术自然语言处理将单词还原为词根形式。词干词干主要是通过删除单词的词缀来完成的,这可能会导致一个无效的字典单词。例如,在词干提取时,单词“require”、“required”和“requirement”将减少为“require”。
词干堵塞通常用于:
- 信息检索,其中词根被用作同义词来扩展搜索条件
- 用于降低维数的工程应用,在这种应用中,截取的词会减少,并在机器学习算法的模型中使用
波特stemmer算法是英语语言中最流行的词干分析方法之一,它基于简单的启发式规则。这种截流方法是快速的,但不一定总是准确的。在随后的几年里,许多其他算法被提出,但波特的算法仍然流行,因为它的速度和简单。
词干词干的一个相关的,但更复杂的方法是语法化。而相比,
- 词法分析使用词汇和形态分析,词法分析使用简单的启发式规则
- 词法分析返回单词的字典形式,而词法分析可能导致无效的单词
词法化和词干化的区别如下所示。
实际的词 | 词元化 | 阻止 |
---|---|---|
要求 | 需要 | 要求 |
要求 | 需要 | 要求 |
要求 | 要求 | 要求 |
要了解更多关于用文本数据进行词干分析和构建模型的信息,请参见文本分析工具箱™.