将单词减少到他们的根形式

Stemming是指文本规范化技术自然语言处理这减少了他们根形式的单词。首先通过去除这些词的附件来完成,这可能导致无效的字典单词。例如,在肿胀时,“需要”的单词“需要”和“要求”将减少“要求”。

Stemming通常用于:

  • 信息检索,其中源头单词用作展开搜索条件的同义词
  • 工程应用以减少维度,其中源于较少的单词待跟踪并在机器学习算法的模型中使用

Porter Sewermer算法是英语最受欢迎的最受欢迎的方法之一,是基于简单的启发式规则。这种源头的方法很快,但可能并不总是准确。在随后的几年中,提出了许多其他算法,但由于其速度和简单性,Porter的Stemming算法保持流行。

一种相关但更复杂的方法,源于溶血化。与茎相比,

  • lemmatization使用词汇和形态学分析和源头使用简单的启发式规则
  • lemmatization返回字典形式的单词,而stemming可能导致无效的单词

lemmatization和茎之间的差异如下所示。

实际的单词 lemmatization.
要求 要求 要求
必需的 要求 要求
要求 要求 要求

了解有关源和建筑模型的更多信息,请参阅Text Analytics Toolbox™

也可以看看:自然语言处理情绪分析Word2vec.n-gram.与matlab的文本挖掘数据科学深度学习深度学习工具箱™统计和机器学习工具箱™