主要内容

replaceNgrams

替换文档中的n-grams

自从R2019a

描述

例子

newDocuments= replaceNgrams (文档oldNgramsnewNgrams通过替换n-grams更新指定的文档oldNgrams里面有相应的n-gramsnewNgrams.缺省情况下,该函数区分大小写。

newDocuments= replaceNgrams (文档oldNgramsnewNgrams“IgnoreCase”,真的)替换n-gramsoldNgrams忽略的情况。

例子

全部折叠

使用replaceNgrams函数将缩写替换为相应的展开形式。

创建一个标记化文档数组。

STR = [...“目前在马萨诸塞州剑桥。”“下一站,纽约!”];documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 6个token:目前在剑桥,马萨诸塞州。5个代币:下一站,纽约!

替换令牌“马”而且“纽约”“麻省”而且(“新”“纽约”)分别。如果n-grams具有不同的长度,则必须用空字符串填充行"".在这种情况下,你必须垫“麻省”用一个空字符串""

oldNgrams = [“马”“纽约”];新台币= [“麻省”""“新”“纽约”];documents = replaceNgrams(documents,oldNgrams,newNgrams)
documents = 2x1 tokenizedDocument: 6个token:目前在马萨诸塞州的剑桥。6个代币:下一站,纽约!

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

替换N-grams,指定为字符串数组、字符向量或字符向量的单元格数组。

如果oldNgrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-grams的个数,和maxN是最大n向量的长度。如果oldNgrams是字符向量,则它表示单个单词(unigram)。

的价值oldNgrams (i, j)j第一个字语法。如果字数在n小于maxN的剩余项第Th行oldNgrams必须用空字符串填充""

例如,指定两个uniggram“麻省”,和bigram(“新”“纽约”),指定2 × 2的字符串数组(“麻省”””;“新”“纽约”),在那里“麻省”是否填充了一个空字符串""

数据类型:字符串|字符|细胞

新的n-grams,指定为字符串数组、字符向量或字符向量的单元格数组。

如果newNgrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-grams的个数,和maxN是最大n向量的长度。如果newNgrams是字符向量,则它表示单个单词(unigram)。

的价值newNgrams (i, j)j第一个字语法。如果字数在n小于maxN的剩余项第Th行newNgrams是空的。

newNgrams必须有一行,还是行数相同oldNgrams

例如,指定两个uniggram“麻省”,和bigram(“新”“纽约”),指定2 × 2的字符串数组(“麻省”””;“新”“纽约”),在那里“麻省”是否填充了一个空字符串""

数据类型:字符串|字符|细胞

输出参数

全部折叠

输出文档,返回为tokenizedDocument数组中。

版本历史

在R2019a中引入