이번역최신을있지않습니다않습니다。최신내용으로보려면를하십시오하십시오하십시오。
이모지가 포함된 텍스트 데이터 분석하기
이예제이모지포함된텍스트를하는방법보여줍니다줍니다줍니다。
이모지는텍스트으로표시그림입니다입니다입니다。사람들은태블릿모바일에서텍스트작성때이모지를사용하여텍스트를간결간결하게유지유지하고하고감정과과느낌느낌느낌을을전달합니다。
이모지를텍스트를분석수도있습니다있습니다。예를를하여관련문자열을하거나텍스트감성이나감정감정을시각화화할있습니다있습니다있습니다。
텍스트 데이터를 사용할 때 이모지가 예측 불가능하게 동작할 수 있습니다. 시스템 글꼴에 따라 시스템에서 일부 이모지를 올바르게 표시하지 못할 수 있습니다. 즉, 이모지가 올바로 표시되지 않는다고 해도 반드시 데이터가 누락된 것은 아닙니다. 시스템에서 이모지를 현재 글꼴로 표시하지 못하는 경우일 수 있습니다.
이모지 작성하기
대부분의경우ExtractFileText
,,,,额外的文本
,,,,可读取
등을파일이모지를수있습니다있습니다。또는이모지복사붙여넣는방식으로으로으로으로으로읽어올있습니다있습니다있습니다。그외의유니코드유니코드유니코드유니코드코드코드하여를작성합니다합니다합니다합니다합니다。
일부이모지는여러개의유니코드UTF16코드단위로구성됩니다。예를들어”선글라스를 끼고 웃고 있는 얼굴" 이모지(코드 포인트가 U+1F60E인 )는 단일 그림문자이지만, 두 개의 UTF16 코드 단위“ D83D”
와“ de0e”
로구성됩니다。撰写
함수를하여이가포함된된형형,접두사,접두사“\X”
를갖는의코드를합니다합니다합니다。
表情符号= compose("\xD83D\xDE0E")
emoji = ""
먼저,이모지utf16코드를가져옵니다가져옵니다。char
을사용이모지의표현을가져온후DEC2HEX
를사용그에해당하는하는하는진수값가져옵니다가져옵니다가져옵니다。
codeunits = dec2hex(char(emoji))
CodeUnits =2×4 char阵列'd83d''de0e'
빈구분기호“”
와함께Str Join
함수를 사용하여 구성 문자열을 재구성합니다.
FormatsPec = strjoin(“\X”+ codeunits,“”)
FormatsPec =“ \ XD83D \ XDE0E”
emoji = compose(FormatsPec)
emoji = ""
텍스트데이터가져오기
可读取
을 사용하여 파일周末updates.xlsx
에서텍스트를합니다합니다。파일周末updates.xlsx
에는 해시태그"#weekend"
와“#假期”
이포함상태가있습니다있습니다。
文件名=“周末updates.xlsx”;tbl =可读取(文件名,'texttype',,,,'细绳');头(TBL)
ans =8×2桌ID TextData __ __________________________________________________________________________________ 1 "Happy anniversary! ❤ Next stop: Paris! ✈ #vacation" 2 "Haha, BBQ on the beach, engage smug mode! ❤ #vacation" 3 "getting ready for Saturday night #yum #weekend " 4 "和我说 - 我需要一个#vacation !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!7“简直不敢相信我的#Vacation已经结束了如此不公平” 8“等不及网球这个#wekend”
필드textdata
에서텍스트추출다음처음개의업데이트를합니다합니다합니다。
textdata = tbl.textData;textdata(1:5)
ans =5×1字符串"Happy anniversary! ❤ Next stop: Paris! ✈ #vacation" "Haha, BBQ on the beach, engage smug mode! ❤ #vacation" "getting ready for Saturday night #yum #weekend " "Say it with me - I NEED A #VACATION!!! ☹" " Chilling at home for the first time in ages…This is the life! #weekend"
텍스트 데이터를 워드 클라우드로 시각화합니다.
图WordCloud(TextData);
이모지로텍스트데이터하기
包含
함수를하여,특정이모지포함상태를합니다합니다합니다。“선글라스를웃고”(코드u+1f60e를를)가가문서의인덱스찾습니다찾습니다찾습니다。이이모지는두의유니코드유니코드유니코드유니코드유니코드코드코드“ D83D”
와de0e”
로구성됩니다。
表情符号= compose("\xD83D\xDE0E");idx = contains(textData,emoji); textDataSunglasses = textData(idx); textDataSunglasses(1:5)
ans =5×1字符串“哈哈,海滩上的烧烤,参与自鸣得意的模式!❤#vacation”“为周六晚上做好准备#yum #wekend”,“很久以来首次在家中放松……这就是生活!#weekend!- 办公室船员,我们正式进行#Vacation !!”“当天气很好☀时,谁需要#vacation”
추출한를클라우드로화합니다합니다。
figure wordcloud(textDataSunglasses);
이모지를하고시각화하기
워드클라우드하여데이터의이모지를화할있습니다있습니다있습니다。
이모지를합니다。먼저tokenizedDocument
를사용를화한처음몇문서를합니다합니다합니다。
documents = tokenizedDocument(textData);文件(1:5)
ANS = 5×1令牌图:11代币:快乐周年纪念日!❤下一站:巴黎!✈#Vacation 16令牌:哈哈,海滩上的烧烤,参与自鸣得意的模式!❤#Vacation 9代币:准备周六晚上#YUM #Weekend 13代币:与我说话 - 我需要#Vacation!呢呢☹19代币:很久以来首次在家中放松……这就是生活!#周末
tokenizedDocument
함수가이모지자동으로감지유형유형“表情符号”
를 할당합니다.tokendetails
함수를문서있는처음몇의세부정보표시합니다합니다합니다。
tdetails = tokenDetails(documents); head(tdetails)
ans =8×5桌Token DocumentNumber LineNumber Type Language _____________ ______________ __________ ___________ ________ "Happy" 1 1 letters en "anniversary" 1 1 letters en "!"1 1标点符号en“❤” 1 1 Emoji en“下一个”“ 1 1 Letters en”停止“ 1 1 Letters en”:“ 1 1标点en”“ Paris” 1 1 Letters en
토큰 유형이“表情符号”
인토큰을한후WordCloud
함수에으로이모지를워드로화합니다합니다합니다。
idx = tdetails.type ==“表情符号”;tokens = tdetails.token(idx);图WordCloud(令牌);标题(“表情符号”)
참고항목
WordCloud
|tokenizedDocument
|tokendetails