Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

replace

문서 내 부분문자열 바꾸기

설명

예제

newDocuments= replace(documents,old,new)documents에 나오는 부분문자열 또는 패턴old모두를new로 바꿉니다.

replace함수를 사용하면 부분문자열 또는 패턴을 지정하여 문서 내 단어의 부분문자열을 바꿀 수 있습니다. 문서의 전체 단어와 n-gram을 바꾸려면replaceWords함수와replaceNgrams함수를 각각 사용하십시오.

예제

모두 축소

문서 배열 내 단어를 바꿉니다.

documents = tokenizedDocument(["an extreme example""another extreme example"])
documents = 2x1 tokenizedDocument: 3 tokens: an extreme example 3 tokens: another extreme example
newDocuments = replace(documents,"example","sentence")
newDocuments = 2x1 tokenizedDocument: 3 tokens: an extreme sentence 3 tokens: another extreme sentence

단어의 부분문자열을 바꿉니다.

newDocuments = replace(documents,"ex","X-")
newDocuments = 2x1 tokenizedDocument: 3 tokens: an X-treme X-ample 3 tokens: another X-treme X-ample

숫자 패턴을 사용하여 문서에서 숫자를 제거합니다.

토큰화된 문서로 구성된 배열을 만듭니다.

textData = ["Text Analytics Toolbox provides over 50 functions to analyze text data.""The bm25Similarity function measures document similarity."]; documents = tokenizedDocument(textData);

replace함수를 사용하여 연속 숫자가 나오는 부분을 토큰""로 바꿉니다.digitsPattern함수를 사용하여 숫자 패턴을 지정합니다.

pat = digitsPattern; newDocuments = replace(documents,pat,"")
newDocuments = 2x1 tokenizedDocument: 12 tokens: Text Analytics Toolbox provides over  functions to analyze text data . 7 tokens: The bmSimilarity function measures document similarity .

함수가 토큰"bm25Similarity"에 있는 숫자를 바꾼 것을 알 수 있습니다.

숫자로만 구성된 토큰을 바꾸려면replace함수를 사용하고 텍스트 경계도 포함하는 패턴을 지정해야 합니다.textBoundary함수를 사용하여 텍스트 경계를 지정합니다.

pat = textBoundary + digitsPattern + textBoundary; newDocuments = replace(documents,pat,"")
newDocuments = 2x1 tokenizedDocument: 12 tokens: Text Analytics Toolbox provides over  functions to analyze text data . 7 tokens: The bm25Similarity function measures document similarity .

이 경우 함수는 토큰"bm25Similarity"에 있는 숫자를 바꾸지 않습니다.

입력 인수

모두 축소

입력 문서로,tokenizedDocument배열로 지정됩니다.

바꿀 부분문자열 또는 패턴으로, 다음 중 하나로 지정됩니다.

  • string형 배열

  • 문자형 벡터

  • 문자형 벡터로 구성된 셀형 배열

  • pattern배열

새 부분문자열로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

데이터형:string|char|cell

출력 인수

모두 축소

출력 문서로,tokenizedDocument배열로 반환됩니다.

R2017b에 개발됨