主要内容

erasePunctuation

删除文本和文档中的标点符号

描述

例子

newStr= erasePunctuation (str删除元素中的标点符号str.函数删除属于Unicode标点或符号类的字符。

例子

newDocuments= erasePunctuation (文档删除标点和符号文档.如果删除标点和符号字符后的单词为空,则该函数将删除该单词。对于标记化的文档输入,该函数将从带有类型的标记中删除标点符号“标点符号”“其他”.例如,该函数不会删除url和电子邮件地址中的标点符号和符号字符。

例子

newDocuments= erasePunctuation (文档“TokenTypes”,类型仅从指定的标记类型中擦除标点和符号。

例子

全部折叠

把文中的标点符号擦掉str

str =“是一个和/或两个。”;newStr = erasePunctuation (str)
newStr = "它的一个和或两个"

插入一个空格“/”符号是,先用取代函数。

newStr =取代(str,“/””“
newStr = "它是一个和或两个。"
newStr = erasePunctuation (newStr)
newStr = "它的一个和或两个"

从一组文档中删除标点符号。

文件= tokenizedDocument ([...“一个短句的例子。”“另一个例子…网址://www.tatmou.com"])
documents = 2x1 tokenizedDocument: 7 tokens:短句示例。10代币:另一个例子…URL: //www.tatmou.com
newDocuments = erasePunctuation(文档)
newDocuments = 2x1 tokenizedDocument: 6 tokens:简短句子的一个例子6 tokens: URL //www.tatmou.com的另一个例子

在这里,函数不会删除URL中的标点符号。

输入参数

全部折叠

输入文本,指定为字符串数组、字符向量或字符向量的单元格数组。

例子:“一个短句的例子”;第二个简短的句子。]

数据类型:字符串|字符|细胞

输入文档,指定为tokenizedDocument数组中。

要擦除标点符号的标记类型,指定为字符向量、字符串数组或包含一个或多个标记类型(包括自定义标记类型)的字符向量单元数组。

tokenizedDocumentaddTypeDetails函数自动检测下列令牌类型:

  • “信”-只能包含字母的字符串

  • “数字”-只能是数字字符串

  • “标点符号”-只包含标点符号字符的字符串

  • “电子邮件地址”-检测到的电子邮件地址

  • “网址”-检测到的web地址

  • “标签”-检测到的标签(以“#”字符后面有字母)

  • 一提到他的-检测在提及(开始于“@”字符)

  • “表情符号”——发现表情符号

  • “emoji”——发现emoji

  • “其他”-不属于前面的类型,也不是自定义类型

要在标记时指定您自己的自定义标记类型,请使用“CustomTokens”“RegularExpressions”选项tokenizedDocument.如果您没有为自定义令牌指定类型,则软件将设置相应的令牌类型为“自定义”

数据类型:字符串|字符|细胞

输出参数

全部折叠

输出文本,作为字符串数组、字符向量或字符向量的单元格数组返回。strnewStr具有相同的数据类型。

输出文档,作为tokenizedDocument数组中。

更多关于

全部折叠

Unicode字符类别

每个Unicode字符被分配一个类别。下表总结了Unicode标点符号和符号类别,并提供了每个类别的示例字符:

类别 类别代码 的字符数 例子字符
标点符号、连接器 (电脑) 10 _
标点符号,短跑 (Pd) 24 -
标点符号, (体育) 73
标点符号,最终报价 (Pf) 10
标点符号,最初的报价 (π) 12
标点符号,其他 (Po) 566
标点符号、开放 (Ps) 75
符号、货币 (Sc) 54
象征,修饰符 (Sk) 121
符号、数学 (Sm) 948 +
符号,其他 (所以) 5855 ¦

有关更多信息,请参见[1]

提示

  • 字符串输入,erasePunctuation从url和HTML标签中删除标点字符。这种行为可以阻止功能eraseTagseraseURLs,decodeHTMLEntities不按预期工作。如果您想使用这些函数来预处理您的文本,那么请在使用之前使用这些函数erasePunctuation

兼容性的考虑

全部展开

R2018b中行为改变

参考文献

介绍了R2017b