lemmatization是一种文本规范化技术自然语言处理这将单词减少到他们的字典形式,称为引理。例如,“建筑物的地板”减少到lemmatization后的“构建地板”。
lemmatization通常用于:
- 扩展搜索条件的信息检索
- 减少文本分类,情感分析或主题建模中存在问题的维度
lemmatization是使用机器学习算法的单词建立模型之前执行的常用文本预处理步骤。lemmatization通过使用词汇和形态分析来消除单词的缀合。这意味着lemmatization通常依赖于单词的语音及其上下文的部分。
lemmatization的相关方法是干。它基于简单的启发式规则,更容易实现和比lemmatization更快。但是,源于结果根部或单词部分不是实际的单词,而lemmatization更准确并返回有效的字典单词。对于需要保持这些单词含义的应用,lemmatization比茎更有用。
lemmatization和茎之间的差异如下所示。
实际的单词 | lemmatization. | 干 |
---|---|---|
要求 | 要求 | 要求 |
应用 | 申请 | appli. |
了解有关使用lemmatization和构建带有matlab的文本数据的预测模型的更多信息,请参阅Text Analytics Toolbox™。