主要内容

이번역번역이지는최신내용을담고담고않습니다않습니다。최신최신내용을영문영문으로여기를클릭클릭

텍스트텍스트이터준비

马铃薯®으로텍스트데이터를가져와분석분석을위해위해

Text Analytics Toolbox™에는기기의로그데이터,뉴스뉴스,설문설문사,작업자작업자,소셜미디어같은각종의원시를처리수수다양툴툴이이이이이이에。이러한툴을사용용하여사용되는되는형식의파일에서텍스트를하고,원시텍스트를하고,개별단어또는다단어(n-gram)을을하고,텍스트를숫자형으로변환,통계모델을구축하는등의다양한작업을수행할수있습니다。시작시작방법을보여보여주는예제准备分析的文本数据항목을참조하십시오。

文本分析工具箱는는,영어,일본어,독일어를합니다。대부분의文本分析工具箱│││││││││││││││││││├자세한내용은语言考虑因素항목을참조하십시오。

함수

모두확장

提取物文字 阅读PDF的文本,微软单词,html和纯文本文件
extracthtmltext. html에서텍스트추출
readpdfformdata. PDF양식에서데이터읽어읽어
WriteTextDocument. 텍스트파일에문서쓰기
htmltree. 解析的html树
Fedelement. html트리에서요소찾기
getAttribute. 读取HTML树根节点的HTML属性
不见了 값이없는html트리찾기
令人畏缩的鳕文 文本分析的授权文档数组
侵蚀 从文本和文档中擦除标点符号
erasetags. 텍스트에서html및xml태그지우기
eraseulls. 텍스트텍스트http및https url지우기
Removestopwords. 从文档中删除停止单词
removeshortwords. 문서또는袋袋모델에서짧은단어제거
removelongwords. 문서또는袋袋모델에서긴단어제거
删除 从文档或单词袋式模型中删除所选单词
正常化字 茎或鼠里言语
替换字词 문서내단어바꾸기
更换铭文 문서내n-gram바꾸기
秒表 불용어목록
解码码 html및xml엔터티를문자로변환
降低 문서를소문자로변환
문서를대문자로변환
语境 在上下文中搜索单词或n-gram出现的文档
令敬当 令牌化文档阵列中的令牌细节
AddsentEnCentails. 将句号添加到文件中
addpartofspeechdetails. 向文档添加语音部分标签
addlemmadetails. 문서에토큰의표제어형태추가
addlangugseTails. 为文档添加语言标识符
添加性达尔 将实体标记添加到文档
addtypedetails. 문서에토큰유형세부정보추가
诽谤 텍스트를문장으로분할
小毒素语言 텍스트의언어감지
缩写 일반약어테이블
人持人群 최상위도메인목록
Bagofwords. 袋式模型
Bagofngrams. 袋式袋型号
adddocument. 文字袋모델또는袋 - n-grams모델에문서추가
删除录制 袋子모델모델또는袋 - 克모델에서문서제거
removeinfrequentwords. 文字袋모델에서가적은단어제거
removeinfrequentngrams. 从n-r克模型中消除不经常看到的n-gram
Removenrams. 从n-r克模型中移除n-grams
删除程序 从令牌化文档阵列中删除空文档,文字袋模型或N-r克模型
topkwords. 袋式模型或LDA主题中最重要的单词
Topkngrams. 最常见的n-grams
编码 将文档编码为单词或n-gram计数的矩阵
TFIDF. 术语频率 - 逆文档频率(TF-IDF)矩阵
加入 结合多个单词或袋式袋式型号
矫正力 正确拼写单词
editdistance. 查找两个字符串或文档之间的编辑距离
EditDistanceSearcher. 编辑距离最近邻南搜索者
knnsearch. 通过编辑距离查找最近的邻居
rangesearch. 通过编辑距离范围查找最近的邻居
分裂emes. 문자열을문자소로분할
多犯 문서의단어에함수적용
追加文件
代替 문서내부분문자열바꾸기
regexprep. 使用正则表达式替换文档的文字文本
Doclencth. 문서배열에포함된문서의이
doc2cell. 문서를字符串형벡터로벡터로구성셀형배열로변환
ingwords. 단어단어를결합하여하여문서문자열로문자열로
细绳 스칼라문서를字符串형벡터로변환

도움말항목

가져오기

从文件中提取文本数据

此示例显示如何从文本,HTML,Microsoft®Word,PDF,CSV和MicrosoftExcel®文件中提取文本数据,并将其导入Matlab®进行分析。

html을구문분석하고텍스트내용추출하기

이예제에서는html코드를구문분석특정요소에서텍스트을을하는방법보여줍니다을방법방법보여줍니다。

텍스트분석을위한데이터세트

다양한텍스트분석작업에사용할수있는데이터세트에대해알아봅니다。

전처리

准备分析的文本数据

此示例显示如何创建清除和预处理文本数据进行分析的函数。

이모지가포함된텍스트데이터분석분석

이예제에서는이모지가포함된텍스트데이터를를분석하는방법을보여보여

문서의철자교정하기

이예제에서는hunspell을사용하여하여문서의철자를교정하는방법을보여보여를교정하는방법을보여보여

철자교정을위한확장사전만들기

이예제에서는철자교정을위한hunspell확장사전을만드는방법을줍니다。

편집거리탐색기를사용사용자사용자지정지정철자교정함수

이예제에서에서는편집거리탐색기와알려진단어로구성된단어집을하여철자를교정방법을보여

언어지원

语言考虑因素

有关使用其他语言的文本分析工具箱功能的信息。

日语支持金宝app

文本分析工具箱中日语支持的信息。金宝app

分析日语文本数据

此示例显示了如何使用主题模型导入,准备和分析日语文本数据。

德语支持金宝app

文本分析工具箱中德语支持的信息。金宝app

分析德国文本数据

此示例显示如何使用主题模型导入,准备和分析德语文本数据。

추천예제