主要内容

html을구문하고텍스트하기하기

이 예제에서는 HTML 코드를 구문 분석하고 특정 요소에서 텍스트 내용을 추출하는 방법을 보여줍니다.

HTML 코드 구문 분석하기

webread를사용하여url//www.tatmou.com/help/textanalytics에서html코드코드옵니다옵니다。

URL ="//www.tatmou.com/help/textanalytics";code = webread(url);

htmlTree를사용하여HTML코드를구문분석합니다。

树= htmlTree(code);

트리html요소요소을합니다합니다。

tree.name
ans = "HTML"

트리의 자식 요소를 표시합니다. 자식은의 하위 트리입니다.

树.Children
ans = 4×1 htmltree:“”   text Analytics工具箱文档




           <! - 移动topNav:start->   

HTML 트리에서 텍스트 추출하기

HTML 트리에서 텍스트를 바로 추출하려면extractHTMLText를사용하십시오。

str = extracthtmltext(tree)
str =“ Text Analytics Toolbox™提供算法和可视化效应,用于预处理,分析和建模文本数据。使用该工具箱创建的模型可以用于应用程序分析,预测性维护和主题建模等应用程序。文本分析工具箱包括用于处理处理的工具,用于处理处理工具来自设备日志,新闻提要,调查,操作员报告和社交媒体等来源的原始文本。您可以从流行的文件格式中提取文本,预处理原始文本,提取单个单词,将文本转换为数值表示,并使用统计模型来构建统计模型。机器学习技术,例如LSA,LDA和Word Embeddings,您可以找到簇并创建高维文本数据集的功能。使用Text Analytics Toolbox创建的功能可以与其他数据源的功能结合在一起,以构建机器学习模型,以利用优势文本,数字和其他类型的数据。”

html요소찾기

html트리의요소찾으려면찾으려면发现를사용하십시오。HTML 트리에서 하이퍼링크를 모두 찾습니다. HTML에서는 하이퍼링크에 "A" 태그가 사용됩니다.

选择器=“一种”;subtrees = findElement(tree,selector);

처음 몇 개의 하위 트리를 표시합니다.

subtrees(1:20)

하이퍼링크 텍스트에서 워드 클라우드를 만듭니다.

str = extracthtmlText(子树);图WordCloud(str);标题("Hyperlinks")

HTML 특성 가져오기

html트리단락에서특성가져옵니다가져옵니다가져옵니다。

subtrees = findElement(tree,'p');attr =“班级”;str = getAttribute(子树,attre)
str =21×1 string array<缺少> <缺少>“ add_margin_5” <缺少> <缺少>     <缺少> <缺少> <缺少> <缺少> <缺少>” text-center“ text-center”<缺少> <缺少> <缺少>“版权” <缺少>

“ category_desc”클래스를 사용하여 단락 요소에 포함된 텍스트에서 워드 클라우드를 만듭니다.

subtrees = findElement(tree,'p.category_desc');str = extracthtmlText(子树);图WordCloud(str);

참고 항목

||||

관련항목