简化单词的字典形式

引理化是一种文本规范化技术自然语言处理这就简化了单词的字典形式,即引理。例如,“building has floors”在引理化后减少为“build have floor”。

引理化常用于:

  • 用于扩展搜索条件的信息检索
  • 降低文本分类、情感分析或主题建模中的问题维数

语义化是机器学习算法在建立词语模型之前进行的一个常见的文本预处理步骤。词元化是通过词汇和形态分析来去除词缀的。这意味着词元化往往取决于词的词性及其上下文。

引理化的一个相关方法是阻止。它基于简单的启发式规则,比引申法更容易实现和更快。但词根词法往往产生的词根或词部不是真正的单词,而词元化更准确,返回有效的词典单词。对于需要保留单词含义的应用程序,词根化比词干化更有用。

词根化和词干化的区别如下所示。

实际的词 词元化 阻止
要求 要求 要求
应用 应用 应用

要了解更多关于用MATLAB使用引理化和用文本数据建立预测模型的信息,请参见文本分析工具箱™



软件参考

参见:自然语言处理,情绪分析,word2vec,阻止,语法,基于MATLAB的文本挖掘,数据科学,深度学习,深度学习工具箱™,统计和机器学习工具箱™