删除文本和文档中的标点符号
删除标点和符号newDocuments
= erasePunctuation (文档
)文档
.如果删除标点和符号字符后的单词为空,则该函数将删除该单词。对于标记化的文档输入,该函数将从带有类型的标记中删除标点符号“标点符号”
和“其他”
.例如,该函数不会删除url和电子邮件地址中的标点符号和符号字符。
仅从指定的标记类型中擦除标点和符号。newDocuments
= erasePunctuation (文档
“TokenTypes”,类型
)
字符串输入,erasePunctuation
从url和HTML标签中删除标点字符。这种行为可以阻止功能eraseTags
,eraseURLs
,decodeHTMLEntities
不按预期工作。如果您想使用这些函数来预处理您的文本,那么请在使用之前使用这些函数erasePunctuation
.
[1]Unicode字符类别.https://www.fileformat.info/info/unicode/category/index.htm