代替

替换文档中的子字符串

折叠所有页面

语法

newDocuments =取代(文档、旧、新)

描述

实例

新文件=替换(文件,古老的,刚出现的)替换子字符串或阵列的所有引用古老的在里面文件具有刚出现的.

提示

使用代替函数通过指定子字符串或模式替换文档中单词的子字符串。若要替换文档中的整个单词和n-gram，请使用替换词和替换图分别起作用。

例子

全部崩溃

替换文档中的子字符串

打开实时脚本

替换文档数组中的单词。

文档=标记化文档([“一个极端的例子”“另一个极端的例子”])

documents=2x1标记化文档：3个标记：一个极端示例3个标记：另一个极端示例

新建文档=替换（文档，“示例”,“判决”)

newDocuments=2x1标记化文档：3个标记：一个极端句子3个标记：另一个极端句子

替换单词的子字符串。

新建文档=替换（文档，“前”,“X—)

newDocuments = 2x1 tokenizedDocument: 3 tokens: an X-treme X-ample 3 tokens: another X-treme X-ample

使用模式替换文档中的子字符串

打开实时脚本

使用数字模式从文档中删除数字。

创建标记化文档的数组。

文本数据=[“文本分析工具箱提供了50多个功能来分析文本数据。”“bm25Similarity函数用于度量文档相似性。”]；文档=标记化文档（textData）；

用令牌替换连续数字的实例“”使用代替函数。使用数字模式作用

pat=数字模式；newDocuments=替换（文档，pat，“”)

newDocuments=2x1 tokenizedDocument:12 tokens:Text Analytics Toolbox提供了用于分析文本数据的函数。7 tokens:bm相似性函数用于测量文档相似性。

请注意，该函数将替换令牌中的数字“BM25相似性”.

要替换完全由数字组成的标记，请使用代替函数并指定还包括文本边界的图案。使用文本边界作用

pat=文本边界+数字模式+文本边界；新文档=替换（文档，pat，“”)

newDocuments=2x1 tokenizedDocument:12 tokens:Text Analytics Toolbox提供了用于分析文本数据的函数。7 tokens:bm25Similarity函数用于测量文档相似性。

在这种情况下，函数不会替换令牌中的数字“BM25相似性”.

输入参数

全部崩溃

`文件`—输入文件
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument大堆

`古老的`—要替换的子字符串或模式
字符串数组|特征向量|字符向量单元数组|`图案`数组

要替换的子字符串或模式，指定为以下之一：

字符串数组
特征向量
字符向量的单元格数组
图案数组

`刚出现的`—新子串
字符串数组|特征向量|字符向量单元数组

新的子字符串，指定为字符串数组、字符向量或字符向量的单元格数组。

数据类型：一串|烧焦|单间牢房

输出参数

全部崩溃

`新文件`-输出文件
`tokenizedDocument`数组

输出文档，作为tokenizedDocument大堆

另见

破译|正常化森林|regexprep|tokenizedDocument|巴格沃兹|替换词|替换图

话题

在R2017b中引入

文本分析工具箱文档

金宝app

MATLAB中的文本分析入门

现在下载

代替

语法

描述

例子

替换文档中的子字符串

使用模式替换文档中的子字符串

输入参数

文件—输入文件tokenizedDocument数组

古老的—要替换的子字符串或模式字符串数组|特征向量|字符向量单元数组|图案数组

刚出现的—新子串字符串数组|特征向量|字符向量单元数组

输出参数

新文件-输出文件tokenizedDocument数组

另见

话题

文本分析工具箱文档

金宝app

MATLAB中的文本分析入门

`文件`—输入文件
`tokenizedDocument`数组

`古老的`—要替换的子字符串或模式
字符串数组|特征向量|字符向量单元数组|`图案`数组

`刚出现的`—新子串
字符串数组|特征向量|字符向量单元数组

`新文件`-输出文件
`tokenizedDocument`数组