Main Content

텍스트 데이터 준비

MATLAB®으로 텍스트 데이터를 가져와 분석을 위해 전처리

Text Analytics Toolbox™에는의,뉴스,설문,작업자,작업자,소셜소셜같은소스원시를처리할할수있는다양한툴툴있습니다있습니다이러한을하여사용되는형식의의파일텍스트를추출추출하고하고하고하고하고하고하고하고를를를를를전처리전처리하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고하고구축하는다양작업수행수행있습니다있습니다있습니다。시작방법보여주는예제는분석할텍스트준비하기항목을하십시오。

文本分析工具箱는,영어,일본어,독일어지원합니다。text Analytics工具箱함수함수그다른의에서도작동합니다합니다합니다자세한내용은언어고려사항항목을하십시오。

함수

모두확장

ExtractFileText PDF,微软单词,html및일반파일텍스트오기오기
额外的文本 html에서텍스트추출
readpdfformdata pdf양식에서오기오기
WriteTextDocument 텍스트파일에쓰기
htmltree 구문 분석된 HTML 트리
findElement html트리에서찾기
getAttribute html트리의노드의의의의특성
不见了 값이html트리트리
细绳 将解析的HTML树转换为字符串
tokenizedDocument 텍스트분석사용토큰화문서로구성된배열
erasePunctuation 텍스트및에서문장부호지우기
eraseTags 텍스트html xml태그태그태그지우기
擦除 텍스트에서 HTTP 및 HTTPS URL 지우기
删除词 문서에서 불용어 제거
removeShortWords 문서字袋모델모델짧은단어제거제거제거
removelongwords 문서字袋모델모델긴단어제거제거제거
删除字 문서또는 bag-of-words 모델에서 선택한 단어 제거
归一化词 단어의어간표제어추출
替换字 문서내단어바꾸기
替换 문서내 n-gram 바꾸기
停止字 불용어목록
解码 html및xml엔터티엔터티문자변환변환
降低 문서를소문자변환
문서를대문자변환
语境 在上下文中搜索单词或n-gram出现的文档
tokendetails 토큰화문서배열토큰의세부정보
添加了详细信息 Add sentence numbers to documents
addPartOfSpeechDetails 문서에품사추가
Addlemmadetails 문서에의표제어형태추가
addLanguageDetails 문서에언어추가
添加剂尾尾 将实体标签添加到文档
addtypedetails 문서에유형세부정보추가
拆分 텍스트를문장분할
corpusLanguage 텍스트의언어감지
abbreviations 일반약어테이블
topleveldomains 최상위도메인목록
小词 Bag-of-words 모델
Bagofngrams n-grams모델
addDocument 词袋모델또는n-grams모델
removeDocument 词袋모델또는n-grams모델
删除InfrequentWords 字袋모델모델적은제거제거제거
removeInfrequentNgrams n-gram的袋모델에서빈도로나오는나오는n-gram제거
removengrams n-grams모델모델n-gram제거
remove emptimentDocuments 토큰화된 문서 배열, bag-of-words 모델 또는 bag-of-n-grams 모델에서 빈 문서 제거
topkwords 词袋模型或LDA主题中最重要的词语
topkngrams 빈도가가장높은n-gram
编码 n-gram개수로개수로개수로개수로구성된인코딩인코딩
TFIDF tf-idf(단어-역-역빈도)행렬
加入 结合多个字袋或n-grams型号
正确散布 正确的单词拼写
编辑 查找两个字符串或文档之间的编辑距离
EditDistancesErchener 编辑距离最近的邻居搜索者
Knnsearch 通过编辑距离找到最近的邻居
rangesearch 通过编辑距离找到最近的邻居range
拆分图 문자열을문자소분할
docfun 문서의단어함수적용
plus 附加文件
取代 문서내부분자열바꾸기
REGEXPREP 使用正则表达式用文档的单词替换文本
doclength 문서배열에 포함된 문서의 길이
doc2cell 문서字符串형형벡터로된셀형배열로변환변환
加入Words 단어를 결합하여 문서를 문자열로 변환
细绳 스칼라문서를字符串형형벡터로변환
textanalytics.unicode.nfd Unicode分解归一化形式(NFD)
UTF32 유니코드UTF-32문자열표현표현
字符类别 Unicode字符类别
十六进制 UTF-32표현16진수값변환변환변환
细绳 UTF-32표현을을형으로하기하기하기

도움말 항목

가져오기

전처리

언어지원