主要内容

解析HTML和提取文本内容

这个示例展示了如何解析HTML代码并从特定元素中提取文本内容。

解析HTML代码

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread

url =“//www.tatmou.com/help/textanalytics”;代码= webread (url);

使用。解析HTML代码htmlTree

树= htmlTree(代码);

查看树的HTML元素名。

树。的名字
ans =“HTML”

查看树的子元素。子树是

树。孩子们
ans = 4×1 htmlTree:Text Analytics Toolbox Documentation




 < DIV class = "头visible-xs visible-sm " id = " header_mobile "翻译=“不”> <导航类= =“导航”“navbar navbar-default”作用> < DIV class = " container-fluid " > < DIV class = "行" > < DIV class = " col-xs-12 " > < DIV class = " navbar-header " > <按钮类=“navbar-toggle topnav_toggle”数据目标= " # topnav_collapse " data-toggle =“崩溃”type = "按钮" > <跨类=“sr-only”>切换主要导航< / SPAN > < SPAN class = "图标菜单" / > < /按钮> < class = " svg_link navbar-brand " href = " //www.tatmou.com?s_tid=gn_logo " > < IMG alt = " MathWorks " class = " mw_logo " src = " /图片/响应全球/ pic-header-mathworks-logo.svg " / > < / > < / DIV > < / DIV > < / DIV > < DIV class = "行visible-xs visible-sm”> < DIV

从超链接的文本创建一个单词云。

str = extractHTMLText(子树);图wordcloud (str);标题(“超链接”

获取HTML属性

从HTML树中的段落元素中获取类属性。

子树= findElement(树,“p”);attr =“类”;str = getAttribute(子树,attr)
str =21日×1的字符串数组  "add_margin_5"      "category_desc" "category_desc" "category_desc" "category_desc"    "text-center"    "copyright" 

使用class从段落元素中包含的文本创建单词云“category_desc”

子树= findElement(树,“p.category_desc”);str = extractHTMLText(子树);图wordcloud (str);

另请参阅

||||

相关的话题