主要内容

代替

替换文档中的子字符串

描述

实例

新文件=替换(文件,古老的,刚出现的)替换子字符串或阵列的所有引用古老的在里面文件具有刚出现的.

提示

使用代替函数通过指定子字符串或模式替换文档中单词的子字符串。若要替换文档中的整个单词和n-gram,请使用替换词替换图分别起作用。

例子

全部崩溃

替换文档数组中的单词。

文档=标记化文档([“一个极端的例子”“另一个极端的例子”])
documents=2x1标记化文档:3个标记:一个极端示例3个标记:另一个极端示例
新建文档=替换(文档,“示例”,“判决”)
newDocuments=2x1标记化文档:3个标记:一个极端句子3个标记:另一个极端句子

替换单词的子字符串。

新建文档=替换(文档,“前”,“X—)
newDocuments = 2x1 tokenizedDocument: 3 tokens: an X-treme X-ample 3 tokens: another X-treme X-ample

使用数字模式从文档中删除数字。

创建标记化文档的数组。

文本数据=[“文本分析工具箱提供了50多个功能来分析文本数据。”“bm25Similarity函数用于度量文档相似性。”];文档=标记化文档(textData);

用令牌替换连续数字的实例使用代替函数。使用数字模式作用

pat=数字模式;newDocuments=替换(文档,pat,)
newDocuments=2x1 tokenizedDocument:12 tokens:Text Analytics Toolbox提供了用于分析文本数据的函数。7 tokens:bm相似性函数用于测量文档相似性。

请注意,该函数将替换令牌中的数字“BM25相似性”.

要替换完全由数字组成的标记,请使用代替函数并指定还包括文本边界的图案。使用文本边界作用

pat=文本边界+数字模式+文本边界;新文档=替换(文档,pat,)
newDocuments=2x1 tokenizedDocument:12 tokens:Text Analytics Toolbox提供了用于分析文本数据的函数。7 tokens:bm25Similarity函数用于测量文档相似性。

在这种情况下,函数不会替换令牌中的数字“BM25相似性”.

输入参数

全部崩溃

输入文档,指定为tokenizedDocument大堆

要替换的子字符串或模式,指定为以下之一:

  • 字符串数组

  • 特征向量

  • 字符向量的单元格数组

  • 图案数组

新的子字符串,指定为字符串数组、字符向量或字符向量的单元格数组。

数据类型:一串|烧焦|单间牢房

输出参数

全部崩溃

输出文档,作为tokenizedDocument大堆

在R2017b中引入