主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。

erasePunctuation

텍스트및문서에서문장부호지우기

설명

예제

newStr= erasePunctuation (strstr의요소에서문장부호와기호를지웁니다。이함수는유니코드문장부호또는기호클래스에속하는문자를제거합니다。

예제

newDocuments= erasePunctuation (文档文档에서문장부호와기호를지웁니다。문장부호와기호문자를지운후단어가비어있으면함수가이를제거합니다。토큰화된문서입력인경우함수는“标点符号”“其他”유형의토큰에서문장부호를지웁니다。예를들어함수는URL과이메일주소에서문장부호와기호문자를지우지않습니다。

예제

newDocuments= erasePunctuation (文档“TokenTypes”,类型는지정된토큰유형에서만문장부호와기호를지웁니다。

예제

모두축소

str의텍스트에서문장부호를지웁니다。

str =“是一个和/或两个。”;newStr = erasePunctuation (str)
newStr = "它的一个和或两个"

“/”기호가있는위치에공백을삽입하기위해먼저取代함수를사용합니다。

newStr =取代(str,“/””“
newStr = "它是一个和或两个。"
newStr = erasePunctuation (newStr)
newStr = "它的一个和或两个"

문서로구성된배열에서문장부호를지웁니다。

文件= tokenizedDocument ([...“一个短句的例子。”“另一个例子…网址://www.tatmou.com"])
documents = 2x1 tokenizedDocument: 7 tokens:短句示例。10代币:另一个例子…URL: //www.tatmou.com
newDocuments = erasePunctuation(文档)
newDocuments = 2x1 tokenizedDocument: 6 tokens:简短句子的一个例子6 tokens: URL //www.tatmou.com的另一个例子

URL여기서는이함수가에서문장부호를지우지않습니다。

입력인수

모두축소

입력텍스트로,弦형배열,문자형벡터또는문자형벡터로구성된셀형배열로지정됩니다。

예:“一个短句的例子”;第二个简短的句子。]

데이터형:字符串|字符|细胞

입력문서로,tokenizedDocument배열로지정됩니다。

문장부호를지울토큰유형으로,문자형벡터나字符串형배열으로지정되거나하나이상의토큰유형(사용자지정토큰유형포함)을포함하는문자형벡터로구성된셀형배열로지정됩니다。

tokenizedDocumentaddTypeDetails함수는다음토큰유형을자동으로감지합니다。

  • “信”——문자로만구성된문자열

  • “数字”——숫자로만구성된문자열

  • “标点符号”——문장부호및기호문자로만구성된문자열

  • “电子邮件地址”- - - - - -감지된이메일주소

  • “网址”- - - - - -감지된웹주소

  • “标签”- - - - - -감지된해시태그(“#”으로시작하고뒤에문자가옴)

  • 一提到他的在————감지된멘션(“@”문자로시작)

  • “表情符号”- - - - - -감지된이모티콘

  • “emoji”- - - - - -감지된이모지

  • “其他”——앞에서언급한유형에속하지않으며사용자지정유형이아닌경우

토큰화할때자체사용자지정토큰유형을지정하려면tokenizedDocument에서“CustomTokens”또는“RegularExpressions”옵션을사용합니다。사용자지정토큰의유형을지정하지않으면해당토큰유형이“自定义”으로설정됩니다。

데이터형:字符串|字符|细胞

출력인수

모두축소

출력텍스트로,弦형배열,문자형벡터또는문자형벡터로구성된셀형배열로반환됩니다。strnewStr은데이터형이동일합니다。

출력문서로,tokenizedDocument배열로반환됩니다。

세부정보

모두축소

유니코드문자범주

각유니코드문자에범주가할당되어있습니다。다음테이블은유니코드문장부호와기호범주를요약해서보여주며각범주의예시문자를제공합니다。

범주 범주코드 문자수 예시문자
문장부호,연결부호(连接器) (电脑) 10 _
문장부호,대시 (Pd) 24 -
문장부호,닫는괄호 (体育) 73
문장부호,닫는따옴표 (Pf) 10
문장부호,여는따옴표 (π) 12
문장부,호기타 (Po) 566
문장부호,여는괄호 (Ps) 75
기호,통화 (Sc) 54
기호,한정자 (Sk) 121
기호,수학연산 (Sm) 948 +
기호,기타 (所以) 5855 ¦

자세한내용은[1]항목을참조하십시오。

  • 字符串형입력인경우erasePunctuation은URL및HTML태그에서문장부호를제거합니다。이동작으로인해함수eraseTagseraseURLsdecodeHTMLEntities가예상대로작동하지않을수있습니다。이들함수를사용하여텍스트를전처리하려면erasePunctuation을사용하기전에이들함수를사용하십시오。

호환성관련고려사항

모두확장

R2018b에서동작이변경됨

참고문헌

R2017b에개발됨