一个n-语法是在一个文本文件中连续的n个元素的一个连词,应该包括文本,números, símbolos y puntuación。我们的n-gramas儿子útiles en muchas aplicaciones de análisis textual en que la secuencia de palabras es relevante, tales como análisis de sentimiento, clasificación de texto y generación de texto。Por ejemplo, en la siguente oración:
“文本分析工具箱允许我们对文本进行修改和修改,对文本进行修改和修改”。
在este ejemplo中,“temas LDA”是一个2-格拉马(bigrama),“数组de cadenas”是一个3-格拉马(trigrama) y“bolos de palabras”是一个5-格拉马。El tamaño del n-gramas depends de la aplicación y del tamaño de las frases fruentes utilizadas en esa aplicación。
n-gramas的modelado是一个可以在técnicas上使用的文本转换为一个没有结构的格式一个结构的文本。n-gramas的另一种形式是técnicas的词嵌入,好了word2vec.我们可以在一个模型lingüístico中把n-语法包含到一个句子中,把n-语法包含到一个句子中,único在一个文件中。这是我们对n-gramas的模型的理解。在前面,n-gramas的bolsa模型,第n=2 tendría方面:
n-gramas | Cantidad |
核心de palabras | 2 |
数组de cadena | 1 |
这是一种全新的方式 | 1 |
我们可以用这个模型lingüístico我们可以用机器学习的算法来预测在análisis文本中的应用。Para obtener más información sobre los n-gramas y la creación de modelos con datos textuales,咨询文本分析工具箱™MATLAB监狱®.