n-gram是文本文档中n个连续项的集合,可以包括单词、数字、符号和标点符号。N-gram模型在许多文本分析应用程序中都很有用,在这些应用程序中,单词序列是相关的,例如情感分析、文本分类和文本生成。例如,在下面的句子中:
“可以使用文本分析工具箱创建来自字符串数组的词云和来自词袋模型和LDA主题的词云。”
“词云”是一个2克(bigram),“来自字符串数组”是一个3克(trigram),“使用文本分析工具箱”是一个4克,等等。n-gram的大小取决于应用程序和该应用程序中使用的常用短语的大小。
N-gram建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的另一种替代方法是词嵌入技术,例如word2vec.可以通过计算每个唯一的n-gram在文档中出现的次数来创建包含n-gram的语言模型。这就是所谓的n-grams袋模型。在前面的例子中,当n=2时,n-g的袋子模型如下所示:
字格 | 计数 |
词云 | 2 |
字符串数组 | 1 |
Bag-of-words模型 | 1 |
一旦建立了语言模型,它就可以与机器学习算法一起使用,为文本分析应用程序构建预测模型。要了解更多关于n-gram和使用文本数据构建模型的信息,请参见文本分析工具箱,供MATLAB使用®.