html을구문하고텍스트하기하기

이 예제에서는 HTML 코드를 구문 분석하고 특정 요소에서 텍스트 내용을 추출하는 방법을 보여줍니다.

HTML 코드 구문 분석하기

webread를사용하여url//www.tatmou.com/help/textanalytics에서html코드코드옵니다옵니다。

URL ="//www.tatmou.com/help/textanalytics";code = webread(url);

htmlTree를사용하여HTML코드를구문분석합니다。

树= htmlTree(code);

트리html요소요소을합니다합니다。

tree.name

ans = "HTML"

트리의 자식 요소를 표시합니다. 자식은树의 하위 트리입니다.

树.Children

ans = 4×1 htmltree：“”   text Analytics工具箱文档




           <！ - 移动topNav：start->       =“ Mathworks” class =“ mw_logo” src =“/images/vistrive/global/pic-header-mathworks-logo.svg”/>   
 
 
 
 
     标志…

HTML 트리에서 텍스트 추출하기

HTML 트리에서 텍스트를 바로 추출하려면extractHTMLText를사용하십시오。

str = extracthtmltext（tree）

str =“ Text Analytics Toolbox™提供算法和可视化效应，用于预处理，分析和建模文本数据。使用该工具箱创建的模型可以用于应用程序分析，预测性维护和主题建模等应用程序。文本分析工具箱包括用于处理处理的工具，用于处理处理工具来自设备日志，新闻提要，调查，操作员报告和社交媒体等来源的原始文本。您可以从流行的文件格式中提取文本，预处理原始文本，提取单个单词，将文本转换为数值表示，并使用统计模型来构建统计模型。机器学习技术，例如LSA，LDA和Word Embeddings，您可以找到簇并创建高维文本数据集的功能。使用Text Analytics Toolbox创建的功能可以与其他数据源的功能结合在一起，以构建机器学习模型，以利用优势文本，数字和其他类型的数据。”

html요소찾기

html트리의요소찾으려면찾으려면发现를사용하십시오。HTML 트리에서 하이퍼링크를 모두 찾습니다. HTML에서는 하이퍼링크에 "A" 태그가 사용됩니다.

选择器=“一种”;subtrees = findElement(tree,selector);

처음 몇 개의 하위 트리를 표시합니다.

subtrees(1:20)

하이퍼링크 텍스트에서 워드 클라우드를 만듭니다.

str = extracthtmlText（子树）;图WordCloud（str）;标题（"Hyperlinks")

HTML 특성 가져오기

html트리단락에서특성가져옵니다가져옵니다가져옵니다。

subtrees = findElement(tree,'p'）；attr =“班级”;str = getAttribute（子树，attre）

str =21×1 string array<缺少> <缺少>“ add_margin_5” <缺少> <缺少>     <缺少> <缺少> <缺少> <缺少> <缺少>” text-center“ text-center”<缺少> <缺少> <缺少>“版权” <缺少>

“ category_desc”클래스를 사용하여 단락 요소에 포함된 텍스트에서 워드 클라우드를 만듭니다.

subtrees = findElement(tree,'p.category_desc'）；str = extracthtmlText（子树）;图WordCloud（str）;

참고 항목

htmlTree|发现|getAttribute|extractHTMLText|象征性文档