html을구문하고텍스트하기하기
이 예제에서는 HTML 코드를 구문 분석하고 특정 요소에서 텍스트 내용을 추출하는 방법을 보여줍니다.
HTML 코드 구문 분석하기
webread
를사용하여url//www.tatmou.com/help/textanalytics
에서html코드코드옵니다옵니다。
URL ="//www.tatmou.com/help/textanalytics";code = webread(url);
htmlTree
를사용하여HTML코드를구문분석합니다。
树= htmlTree(code);
트리html요소요소을합니다합니다。
tree.name
ans = "HTML"
트리의 자식 요소를 표시합니다. 자식은树
의 하위 트리입니다.
树.Children
ans = 4×1 htmltree:“”text Analytics工具箱文档 <! - 移动topNav:start->HTML 트리에서 텍스트 추출하기
HTML 트리에서 텍스트를 바로 추출하려면
extractHTMLText
를사용하십시오。str = extracthtmltext(tree)str =“ Text Analytics Toolbox™提供算法和可视化效应,用于预处理,分析和建模文本数据。使用该工具箱创建的模型可以用于应用程序分析,预测性维护和主题建模等应用程序。文本分析工具箱包括用于处理处理的工具,用于处理处理工具来自设备日志,新闻提要,调查,操作员报告和社交媒体等来源的原始文本。您可以从流行的文件格式中提取文本,预处理原始文本,提取单个单词,将文本转换为数值表示,并使用统计模型来构建统计模型。机器学习技术,例如LSA,LDA和Word Embeddings,您可以找到簇并创建高维文本数据集的功能。使用Text Analytics Toolbox创建的功能可以与其他数据源的功能结合在一起,以构建机器学习模型,以利用优势文本,数字和其他类型的数据。”html요소찾기
html트리의요소찾으려면찾으려면
发现
를사용하십시오。HTML 트리에서 하이퍼링크를 모두 찾습니다. HTML에서는 하이퍼링크에 "A" 태그가 사용됩니다.选择器=“一种”;subtrees = findElement(tree,selector);
처음 몇 개의 하위 트리를 표시합니다.
subtrees(1:20)ans = 20×1 htmlTree: Sign In Products Solutions Academia Support Community Events Contact Us How to Buy Contact Us How to Buy Sign In Products Solutions Academia Support Community Events하이퍼링크 텍스트에서 워드 클라우드를 만듭니다.
str = extracthtmlText(子树);图WordCloud(str);标题("Hyperlinks")
HTML 특성 가져오기
html트리단락에서특성가져옵니다가져옵니다가져옵니다。
subtrees = findElement(tree,'p');attr =“班级”;str = getAttribute(子树,attre)str =21×1 string array<缺少> <缺少>“ add_margin_5” <缺少> <缺少><缺少> <缺少> <缺少> <缺少> <缺少>” text-center“ text-center”<缺少> <缺少> <缺少>“版权” <缺少>
“ category_desc”
클래스를 사용하여 단락 요소에 포함된 텍스트에서 워드 클라우드를 만듭니다.subtrees = findElement(tree,'p.category_desc');str = extracthtmlText(子树);图WordCloud(str);
참고 항목
htmlTree
|发现
|getAttribute
|extractHTMLText
|象征性文档