이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。
텍스트및문서에서문장부호지우기
는newDocuments
= erasePunctuation (文档
)文档
에서문장부호와기호를지웁니다。문장부호와기호문자를지운후단어가비어있으면함수가이를제거합니다。토큰화된문서입력인경우함수는“标点符号”
및“其他”
유형의토큰에서문장부호를지웁니다。예를들어함수는URL과이메일주소에서문장부호와기호문자를지우지않습니다。
는지정된토큰유형에서만문장부호와기호를지웁니다。newDocuments
= erasePunctuation (文档
“TokenTypes”,类型
)
字符串형입력인경우erasePunctuation
은URL및HTML태그에서문장부호를제거합니다。이동작으로인해함수eraseTags
,eraseURLs
및decodeHTMLEntities
가예상대로작동하지않을수있습니다。이들함수를사용하여텍스트를전처리하려면erasePunctuation
을사용하기전에이들함수를사용하십시오。
[1] Unicode字符类别。https://www.fileformat.info/info/unicode/category/index.htm