主要内容

侵蚀

删除文本和文档中的标点符号

描述

例子

newStr= erasePunctuation (str删除元素中的标点符号str.函数删除属于Unicode标点或符号类的字符。

例子

newDocuments= erasePunctuation (文档删除标点符号和符号文档.如果删除标点和符号字符后的单词为空,则该函数将删除该单词。对于标记化的文档输入,该函数将从带有类型的标记中删除标点符号“标点符号”“其他”.例如,该函数不会删除url和电子邮件地址中的标点符号和符号字符。

例子

newDocuments= erasePunctuation (文档“TokenTypes”,类型从仅指定的令牌类型删除标点符号和符号。

例子

全部收缩

把文中的标点符号擦掉str

str =“是一个和/或两个。”;newStr = erasePunctuation (str)
newStr = "它的一个和或两个"

插入一个空格“/”符号是,先用代替函数。

newStr =取代(str,“/”
newstr =“它是一到两个。”
newStr = erasePunctuation (newStr)
newstr =“它的一到两个”

从文件数组中删除标点符号。

文件= tokenizedDocument ([...“一句话的一个例子。”“另一个例子…网址://www.tatmou.com"])
documents = 2x1 tokenizedDocument: 7 tokens:短句示例。10代币:另一个例子…URL: //www.tatmou.com
newDocuments = erasePunctuation(文档)
newDocuments = 2x1 tokenizedDocument: 6 tokens:简短句子的一个例子6 tokens: URL //www.tatmou.com的另一个例子

在这里,函数不会删除URL中的标点符号。

输入参数

全部收缩

输入文本,指定为字符串数组、字符向量或字符向量的单元格数组。

例子:“一个短句的例子”;第二个简短的句子。]

数据类型:字符串|char|细胞

输入文档,指定为令人畏缩的鳕文数组中。

要擦除标点符号的标记类型,指定为字符向量、字符串数组或包含一个或多个标记类型(包括自定义标记类型)的字符向量单元数组。

令人畏缩的鳕文addtypedetails.函数自动检测下列令牌类型:

  • “信”-只能包含字母的字符串

  • '数字'-只能是数字字符串

  • “标点符号”-只包含标点符号字符的字符串

  • “电子邮件地址”- 检测到的电子邮件地址

  • '网址'-检测到的web地址

  • “标签”- 检测到的hashtag(从“#”字符后跟一封信)

  • “提升”-检测在提及(开始于“@”字符)

  • “表情符号”——发现表情符号

  • “emoji”- 检测到的表情符号

  • “其他”- 不属于以前的类型,不是自定义类型

要在授权时指定自己的自定义令牌类型,请使用“CustomTokens”或者'常用表达'选项令人畏缩的鳕文.如果未指定自定义令牌的类型,则软件将相应的令牌类型设置为“自定义”

数据类型:字符串|char|细胞

输出参数

全部收缩

输出文本,作为字符串数组、字符向量或字符向量的单元格数组返回。strnewStr具有相同的数据类型。

输出文档,作为令人畏缩的鳕文数组中。

更多关于

全部收缩

Unicode字符类别

每个Unicode字符被分配一个类别。下表总结了Unicode标点符号和符号类别,并提供了每个类别的示例字符:

类别 类别代码 字符数量 示例性格
标点符号,连接器 (电脑) 10 _
标点符号,短跑 (Pd) 24 -
标点符号, (体育) 73
标点符号,最终报价 (Pf) 10
标点符号,初始报价 (π) 12
标点符号,其他 [Po] 566.
标点符号、开放 (Ps) 75
符号,货币 [sc] 54
符号,修饰 (Sk) 121
符号、数学 (Sm) 948 +
符号,其他 (所以) 5855 ¦

有关更多信息,请参阅[1]

提示

  • 对于字符串输入,侵蚀从URL和HTML标记中删除标点符号字符。此行为可以防止功能erasetags.eraseURLs, 和decodeHTMLEntities不按预期工作。如果您想使用这些函数来预处理您的文本,那么请在使用之前使用这些函数侵蚀

兼容性考虑因素

全部展开

R2018b中行为改变

介绍了R2017b