文本分析工具箱

텍스트데이터를를분석분석하고모델링수수수

文本分析工具箱™는텍스트데이터의의,분석,모델링을위한시각와을제공합니다。이툴박스로만들어진모델은감성,예측예측,토픽모델링같은응용사용할할수。

文本分析工具箱에는에는기록,뉴스피드,설문설문사,운영자운영자,소셜미디어같은소스원시원시를처리툴이있습니다。사용자는널리사용되는형식형식텍스트를추출,원시텍스트를전처리하고,개별단어를추출하고,텍스트를숫자표현변환하고,통계적모델을변환하고하고。

lsa,lda,단어임베딩같은머신러닝을활용하여고차원텍스트데데군집을찾고특징을생성수있습니다있습니다을수있습니다있습니다。文本分析工具箱로생성된특징을다른이터소스의특징과결합텍스트,숫자및기타유형의데데활용하는머신러닝모델을할수수수수수수수

시작하기:

텍스트텍스트이터가져오기오기및시각

소셜미디어,뉴스피드,장비기록,보고서,설문설문사등의에서에서데이터를를추출할수

텍스트텍스트이터추출

PDF,HTML,Microsoft®单词®,Excel.®파일등,단일파일이나대규모대규모모음에서텍스트이터터matlab®으로가져올수수。

Microsoft Word문서문서모음에서텍스트텍스트。

텍스트시각화

단어구름및텍스트산점도사용하여텍스트데이터셋을을시각적으로탐색수수수

글꼴크기와색상을사용하여하여단어의상대적빈도표시한단어단어

언어지원

文本分析工具箱는영어,일본어,독일어,한국어에대한언어별전처리기능합니다합니다합니다。대부분의함수함수는기타기타의텍스트로도작업작업할수수

일본어텍스트를가져오고준비하고분석합니다。

텍스트텍스트이터전처리

원시원시텍스트에서유의미유의미한단어추출할수수를추출할수

텍스트텍스트이터정리

하이레벨필터링함수를적용하여url,html태그,구두점등의관련내용을하고,철자철자수정할수。

원시텍스트(왼쪽)를단순화하여가장유의미유의미한(오른쪽)로작업할수。

불용어불용어의필터링및및어근형식으로의단어정규

일반적인단어,등장빈도가너무너무너무낮은,매우매우길거나매우짧은단어를필터링하여분석에서유의미한텍스트텍스트수수수순위수정할수수어근형식으로의어간추출사전형식으로의표제어을통해집의크기줄줄줄의넓은또는감성에집중수있습니다또는에집중할있습니다있습니다。

문서문서''및'的'등의불용어제거합니다。

토큰,문장,품사식별

토큰화알고리즘을사용하여하여원시텍스트를단어모음으로분할할수수으로분할분할할수문장경계,품사세부정보등문맥관련정보를가할할있습니다。

토큰화된문서에에사및문장세부정보추가。

텍스트를숫자형식으로변환

머신러닝머신러닝딥러닝에사용하도록텍스트이터를를를숫자형식으로수수수수수수수

단어및n-gram계산

텍스트데이터를를숫자로숫자로표현할있도록단어빈도통계량을할수수

모델에서가장자주자주나오는단어를식별시각화화화화

단어임베딩및인코딩

Word2Vec Cow(连续袋袋)및跳过gr모델과과단어임베딩모델을훈련할수수임베딩임베딩모델을훈련할수FastText및手套등의사전의된모델을가져올수있습니다。

단어임베딩을사용하여텍스트산점도에서에서을시각화합니다。

텍스트데이터를를활용한한

머신러닝머신러닝을사용하여하여토픽,감성감성,분류,차원축소,문서문서요약추출을수행할수수

토픽모델링

lda(잠재디리클레할당)와lsa(잠재잠재분석)같은머신러닝알고리즘을사용하여텍스트데이터셋에서에서기본,추세,복잡한관계를하고시각화수있습니다。

폭풍보고서데이터에서토픽식별。

문서요약및키워드추출

하나이상의문서에서과관련키워드를자동으로하고문서의사도중요도를를가할할있습니다。

텍스트에서요약추출。

감성분석

텍스트텍스트이터로표현표현된된태도와의견식별하여긍정적진술진술적적,부정진술,부정적진술로분류할수。실시간으로감정감정을예측예측수있는모델들을을구축할수

긍정감성과부정부정감성을을하는단어를식별식별할수수

텍스트데이터를를활용한한

딥러닝알고리즘을사용용감성분석,분류,요약,텍스트생성을을수있습니다수있습니다。

变压器모델

텍스트데이터에에및gpt-2등의变压器모델을활용하여분석,분류,요약같은작업을위한이학습을을수행할수수전

텍스트텍스트이터를이용한전이학습을위한变压器모델。

텍스트분류



텍스트데이터분류분류를위한위한신경망신경망신경망

텍스트생성

관찰한텍스트를기반으로을사용하여새로운텍스트생성할할있습니다있습니다。

제인오스틴의“오만오만과”과딥러닝lstm신경망을활용활용텍스트생성생성。