语法

建立多词语言模型,并利用机器学习进行分析

n-gram是文本文档中n个连续项的集合,可以包括单词、数字、符号和标点符号。N-gram模型在许多文本分析应用程序中很有用,其中单词序列是相关的,如情感分析、文本分类和文本生成。例如,在下面的句子中:

“可以使用文本分析工具箱创建字符串数组中的词云、词袋模型中的词云和LDA主题。”

“Word clouds”是2克(双格),“from string arrays”是3克(三格),“using Text Analytics Toolbox”是4克,等等。n-gram的大小取决于应用程序和该应用程序中使用的常用短语的大小。

N-gram建模是将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的另一种替代方法是字嵌入技术,例如word2vec.可以通过计算每个独特的n-gram出现在文档中的次数来创建包含n-gram的语言模型。这被称为包-n-grams模型。在前面的例子中,n=2时的bag-of-n-grams模型如下所示:

字格 计数
词云 2
字符串数组 1
Bag-of-words模型 1

一旦建立了语言模型,它就可以与机器学习算法一起用于建立文本分析应用程序的预测模型。要了解关于n-g和使用文本数据构建模型的更多信息,请参见文本分析工具箱™,用于MATLAB®

参见:自然语言处理情绪分析word2vec用MATLAB进行文本挖掘数据科学深度学习深度学习工具箱™预见性维护工具箱™