lemmization是一种文本规范化技术自然语言处理这将单词还原为字典中的形式,称为引理。例如,“building has floors”在词根化后被简化为“build have floor”。
词元化通常用于:
- 扩展搜索条件的信息检索
- 降低文本分类、情感分析或主题建模中的问题的维数
词根化是在使用机器学习算法用单词构建模型之前执行的常见文本预处理步骤。词元化通过词汇和形态分析来去除词缀。这意味着词元化通常取决于单词的词性及其上下文。
词根化的一个相关方法是阻止.它基于简单的启发式规则,比lemmization更容易实现,速度更快。但是词干化通常会导致词根或不是实际单词的单词部分,而词根化更准确,并返回有效的字典单词。对于需要保留单词含义的应用程序,词元化比词干化更有用。
词根化和词干化之间的区别如下所示。
实际的词 | 词元化 | 阻止 |
---|---|---|
要求 | 要求 | 要求 |
应用 | 应用 | 应用 |
要了解更多关于使用lemmalization和用MATLAB建立文本数据预测模型的信息,请参见文本分析工具箱.