Stemming是指文本规范化技术自然语言处理这减少了他们根形式的单词。首先通过去除这些词的附件来完成,这可能导致无效的字典单词。例如,在肿胀时,“需要”的单词“需要”和“要求”将减少“要求”。
Stemming通常用于:
- 信息检索,其中源头单词用作展开搜索条件的同义词
- 工程应用以减少维度,其中源于较少的单词待跟踪并在机器学习算法的模型中使用
Porter Sewermer算法是英语最受欢迎的最受欢迎的方法之一,是基于简单的启发式规则。这种源头的方法很快,但可能并不总是准确。在随后的几年中,提出了许多其他算法,但由于其速度和简单性,Porter的Stemming算法保持流行。
一种相关但更复杂的方法,源于溶血化。与茎相比,
- lemmatization使用词汇和形态学分析和源头使用简单的启发式规则
- lemmatization返回字典形式的单词,而stemming可能导致无效的单词
lemmatization和茎之间的差异如下所示。
实际的单词 | lemmatization. | 干 |
---|---|---|
要求 | 要求 | 要求 |
必需的 | 要求 | 要求 |
要求 | 要求 | 要求 |
了解有关源和建筑模型的更多信息,请参阅Text Analytics Toolbox™。