replaceNgrams

替换文档中的n个字符

描述

例子

newDocuments= replaceNgrams (文档,oldNgrams,newNgrams)通过替换n个符号更新指定的文档oldNgrams对应的n克newNgrams。默认情况下,该函数区分大小写。

newDocuments= replaceNgrams (文档,oldNgrams,newNgrams“IgnoreCase”,真的)取代了字格oldNgrams忽略的情况。

例子

全部折叠

使用replaceNgrams功能及其相应的扩展形式替换缩写。

创建一个标记化文档数组。

str = [“目前在马萨诸塞州剑桥市。”“下一站,纽约!”];文件= tokenizedDocument (str)
文档= 2x1标记化文档:6个代币:目前在马萨诸塞州剑桥。令牌:下一站,纽约!

更换令牌“马”“纽约”“麻省”(“新”“纽约”)分别。如果n个字符有不同的长度,则必须用空字符串填充行”“。在这种情况下,你必须填充“麻省”使用一个空字符串”“

oldNgrams = [“马”“纽约”];newNgrams = [“麻省””““新”“纽约”];= replaceNgrams文档(文档、oldNgrams newNgrams)
文档= 2x1标记化文档:6个令牌:目前在马萨诸塞州剑桥市。令牌:下一站,纽约!

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

要替换的n个字符,指定为字符串数组、字符向量或字符向量的单元格数组。

如果oldNgrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn克的数量,和maxN是最大n克的长度。如果oldNgrams是一个字符向量,然后它表示一个单词(unigram)。

的价值oldNgrams (i, j)是个j第一个字语法。如果字的数量在th n克小于maxN的剩余项th排oldNgrams必须用空字符串填充”“

例如,指定两个unigram“麻省”,还有双字谜(“新”“纽约”),指定2×2的字符串数组(“麻省”””;“新”“纽约”),在那里“麻省”用一个空字符串填充”“

数据类型:字符串|字符|细胞

新的n个字符,指定为字符串数组、字符向量或字符向量的单元数组。

如果newNgrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn克的数量,和maxN是最大n克的长度。如果newNgrams是一个字符向量,然后它表示一个单词(unigram)。

的价值newNgrams (i, j)是个j第一个字语法。如果字的数量在th n克小于maxN的剩余项th排newNgrams是空的。

newNgrams必须有一个行,或者有相同的行数oldNgrams

例如,指定两个unigram“麻省”,还有双字谜(“新”“纽约”),指定2×2的字符串数组(“麻省”””;“新”“纽约”),在那里“麻省”用一个空字符串填充”“

数据类型:字符串|字符|细胞

输出参数

全部折叠

输出文档,返回为tokenizedDocument数组中。

介绍了R2019a