主要内容

解析HTML和提取文本内容

此示例演示如何解析HTML代码并从特定元素中提取文本内容。

解析HTML代码

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用网络阅读.

url ="//www.tatmou.com/help/textanalytics";代码=网络阅读(url);

使用htmlTree.

tree=htmlTree(代码);

查看树的HTML元素名称。

树。的名字
ans=“HTML”

查看树的子元素。孩子们是孩子们的子树.

树,孩子们
ans = 4×1 htmlTree:Text Analytics Toolbox Documentation




 < DIV class = "头visible-xs visible-sm " id = " header_mobile "翻译=“不”> <导航类= =“导航”“navbar navbar-default”作用> < DIV class = " container-fluid " > < DIV class = "行" > < DIV class = " col-xs-12 " > < DIV class = " navbar-header " > <按钮类=“navbar-toggle topnav_toggle”数据目标= " # topnav_collapse " data-toggle =“崩溃”type = "按钮" > <跨类=“sr-only”>切换主要导航< / SPAN > < SPAN class = "图标菜单" / > < /按钮> < class = " svg_link navbar-brand " href = " //www.tatmou.com?s_tid=gn_logo " > < IMG alt = " MathWorks " class = " mw_logo " src = " /图片/响应全球/ pic-header-mathworks-logo.svg " / > < / > < / DIV > < / DIV > < / DIV > < DIV class = "行visible-xs visible-sm”> < DIV

从超链接的文本创建一个单词云。

str = extractHTMLText(子树);图wordcloud (str);标题(“超链接”)

获取HTML属性

从HTML树中的段落元素中获取类属性。

子树=findElement(树,“p”);属性=“类”;str = getAttribute(子树,attr)
str=21×1字符串数组  "add_margin_5"      "category_desc" "category_desc" "category_desc" "category_desc"    "text-center"    "copyright" 

使用class从段落元素中包含的文本创建单词云“category_desc”.

子树=findElement(树,“p.category_desc”);str = extractHTMLText(子树);图wordcloud (str);

另见

||||

相关的话题