replaceNgrams

替换文档中的n-grams

自从R2019a

折叠所有页面

语法

newDocuments = replaceNgrams(文档，olddngrams,newNgrams)

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams，'IgnoreCase'，true)

描述

newDocuments= replaceNgrams (文档，oldNgrams，newNgrams）通过替换n-grams更新指定的文档oldNgrams里面有相应的n-gramsnewNgrams．缺省情况下，该函数区分大小写。

newDocuments= replaceNgrams (文档，oldNgrams，newNgrams“IgnoreCase”,真的)替换n-gramsoldNgrams忽略的情况。

例子

全部折叠

替换文档中的N-grams

打开实时脚本

使用replaceNgrams函数将缩写替换为相应的展开形式。

创建一个标记化文档数组。

STR = [.．.“目前在马萨诸塞州剑桥。”“下一站，纽约!”];documents = tokenizedDocument(str)

documents = 2x1 tokenizedDocument: 6个token:目前在剑桥，马萨诸塞州。5个代币:下一站，纽约!

替换令牌“马”而且“纽约”与“麻省”而且(“新”“纽约”)分别。如果n-grams具有不同的长度，则必须用空字符串填充行＂＂．在这种情况下，你必须垫“麻省”用一个空字符串＂＂．

oldNgrams = [“马”“纽约”];新台币= [“麻省”＂＂“新”“纽约”];documents = replaceNgrams(documents,oldNgrams,newNgrams)

documents = 2x1 tokenizedDocument: 6个token:目前在马萨诸塞州的剑桥。6个代币:下一站，纽约!

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

`oldNgrams`- - - - - -替换N-grams
字符串数组|特征向量|字符向量的单元格数组

替换N-grams，指定为字符串数组、字符向量或字符向量的单元格数组。

如果oldNgrams是字符串数组还是单元格数组，那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-grams的个数，和maxN是最大n向量的长度。如果oldNgrams是字符向量，则它表示单个单词(unigram)。

的价值oldNgrams (i, j)是j第一个字我语法。如果字数在我n小于maxN的剩余项我第Th行oldNgrams必须用空字符串填充＂＂．

例如，指定两个uniggram“麻省”，和bigram(“新”“纽约”)，指定2 × 2的字符串数组(“麻省”””;“新”“纽约”),在那里“麻省”是否填充了一个空字符串＂＂．

数据类型:字符串|字符|细胞

`newNgrams`- - - - - -新字格
字符串数组|特征向量|字符向量的单元格数组

新的n-grams，指定为字符串数组、字符向量或字符向量的单元格数组。

如果newNgrams是字符串数组还是单元格数组，那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-grams的个数，和maxN是最大n向量的长度。如果newNgrams是字符向量，则它表示单个单词(unigram)。

的价值newNgrams (i, j)是j第一个字我语法。如果字数在我n小于maxN的剩余项我第Th行newNgrams是空的。

newNgrams必须有一行，还是行数相同oldNgrams．

数据类型:字符串|字符|细胞

输出参数

全部折叠

`newDocuments`-输出文件
`tokenizedDocument`数组

输出文档，返回为tokenizedDocument数组中。

版本历史

在R2019a中引入

另请参阅

replaceNgrams

语法

描述

例子

替换文档中的N-grams

输入参数

文档- - - - - -输入文档tokenizedDocument数组

oldNgrams- - - - - -替换N-grams字符串数组|特征向量|字符向量的单元格数组

newNgrams- - - - - -新字格字符串数组|特征向量|字符向量的单元格数组

输出参数

newDocuments-输出文件tokenizedDocument数组

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`oldNgrams`- - - - - -替换N-grams
字符串数组|特征向量|字符向量的单元格数组

`newNgrams`- - - - - -新字格
字符串数组|特征向量|字符向量的单元格数组

`newDocuments`-输出文件
`tokenizedDocument`数组