词元化

把单词简化到字典的形式

词法化是一种文本规范化技术自然语言处理它将单词简化为字典的形式,被称为引理。例如,“建筑有楼层”在法理化后会减少为“建造有楼层”。

词法化常用于:

  • 扩展搜索标准的信息检索
  • 降低文本分类、情感分析或主题建模问题的维数

语法化是一种常用的文本预处理步骤,在使用机器学习算法构建单词模型之前进行。词法化是通过词汇和形态分析去除词缀。这意味着语法化通常取决于单词的词性和上下文。

一种相关的方法是阻止.它基于简单的启发式规则,比语法化更容易实现,速度更快。但是词根提取的词根或词部往往不是实际的单词,而语法化则更准确,返回有效的字典单词。对于需要保留单词含义的应用程序,语法化比词干化更有用。

词法化和词干化的区别如下所示。

实际的词 词元化 阻止
要求 要求 要求
应用 应用 应用

要了解更多关于使用语法化和使用MATLAB用文本数据构建预测模型的信息,请参见文本分析工具箱™



软件参考

参见:自然语言处理情绪分析word2vec阻止语法基于MATLAB的文本挖掘数据科学深度学习深度学习工具箱™统计和机器学习工具箱™