解析HTML并提取文本内容

这个例子展示了如何解析HTML代码和提取特定元素的文本内容。

解析HTML代码

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread。

url =“//www.tatmou.com/help/textanalytics”;代码= webread (url);

解析HTML代码使用htmlTree。

树= htmlTree(代码);

视图树的HTML元素的名字。

tree.Name

ans =“HTML”

视图树的子元素。孩子们的子树树。

tree.Children

ans = 4×1 htmlTree: " <头> <标题>文本分析工具箱文档< /名称> < META charset = " utf - 8 " / > < META内容=“宽度=设备宽度,初始= 1.0 " name = "视窗" / > < META内容=“IE =边缘”http-equiv = " X-UA-Compatible " / > <链接的href = " / includes_content /响应/ css /引导/ bootstrap.min。css样式表" rel = " " type = " text / css " href = " / > <联系/ includes_content /响应/ css / site6.css吗?20180314”rel = "样式表" type = " text / css " href = " / > <联系/ includes_content /响应/ css / site6_lg.css吗?20180314“媒体= "屏幕和(min-width: 1200 px) " / > < " rel = "样式表链接href = " / includes_content /响应/ css / site6_md.css吗?20180314”媒体= "屏幕和(min-width: 992 px)和(max-width: 1199 px) " / > < " rel = "样式表链接href = " / includes_content /响应/ css / site6_sm + xs.css吗?20180314“媒体= "屏幕和(max-width: 991 px) " / > < " rel = "样式表链接href = " / includes_content /响应/ css / site6_sm.css吗?20180314”媒体= "屏幕和(min-width: 768 px)和(max-width: 991 px) " / > < " rel = "样式表链接href = " / includes_content /响应/…" " <身体id = " responsive_offcanvas " > < !——移动TopNav:开始- - > < DIV class = "头visible-xs visible-sm " id =“header_mobile”翻译= "不" > <导航类= =“导航”>“navbar navbar-default”作用< DIV class = " container-fluid " > < DIV class = "行" > < DIV class = " col-xs-12 " > < DIV class = " navbar-header " > <按钮类=“navbar-toggle topnav_toggle”数据目标= " # topnav_collapse " data-toggle =“崩溃”type = "按钮" > <跨类= " sr-only " >切换主要导航< / SPAN > < SPAN class = "图标菜单" / > < /按钮> < class = " svg_link navbar-brand " href = " //www.tatmou.com?s_tid = gn_logo " > < IMG alt = " MathWorks”类= " mw_logo " src = " /图片/响应/全球/ pic-header-mathworks-logo。svg " / > < / > < / DIV > < / DIV > < / DIV > < DIV class = "行visible-xs visible-sm”> < DIV class = " col-xs-12 " > < DIV class = " navbar-collapse崩溃" id = " topnav_collapse " > < UL类= " nav navbar-nav " id = " topnav " > <李类= " headernav_login " > < class = " mwa-nav_login " href = " //www.tatmou.com/login?uri=http: / /www.tatmou.com/help/textanalytics/index.html " >标志…

从HTML树中提取文本

直接从HTML树中提取文本,使用extractHTMLText。

str = extractHTMLText(树)

str = "文本分析工具箱™提供预处理的算法和可视化、分析、建模和文本数据。使用工具箱创建的模型可以用于应用,如情绪分析、预测性维护,和主题建模。文本分析工具箱包括工具处理原始文本来源设备日志等新闻,调查,运营商报告,和社交媒体。你可以从流行的文件格式中提取文本,原始文本进行预处理,提取单词,将文本转换成数值表示,并建立统计模型。使用机器学习技术,如LSA、LDA和字嵌入的,你可以找到集群和从高维文本数据集创建功能。特征与文本分析工具箱可以创建结合特性从其他数据源构建机器学习模型,利用文本,数字,和其他类型的数据。”

找到HTML元素

找到特定元素的HTML树,使用findElement。找到所有的超链接的HTML树。在HTML中,超链接使用“A”标记。

选择器=“一个”;子树= findElement(树,选择器);

查看前几子树。

子树(1:20)

ans = 20×1 htmlTree: < class = " svg_link navbar-brand " href = " //www.tatmou.com?s_tid = gn_logo " > < IMG alt = " MathWorks”类= " mw_logo " src = " /图片/响应/全球/ pic-header-mathworks-logo。svg " / > < / > < class = " mwa-nav_login " href = " //www.tatmou.com/login?uri=http: / /www.tatmou.com/help/textanalytics/index.html " >在< / > < A href = " https://www.下载188bet金宝搏mathworks.com/products.html?产品s_tid = gn_下载188bet金宝搏ps " > < / > < A href = " https://www.mathworks.金宝搏官方网站com/solutions.html?s_tid = gn_sol金宝搏官方网站 " >解决方案< / > < A href = " //www.tatmou.com/academia.html?学术界s_tid = gn_acad " > < / > < A href = " https://www.mathworks金宝app.com/support.html?s_tid支持= gn_sup金宝appp " > < / > < A href = " //www.tatmou.com/matlabcentral/?社区s_tid = gn_mlc " > < / > < A href = " //www.tatmou.com/company/events.html?s_tid=gn_ev " > < / >事件Contact Us How to Buy Contact Us How to Buy Sign In  Products Solutions Academia Support Community Events

创建一个词云从超链接的文本。

str = extractHTMLText(子树);图wordcloud (str);标题(“超链接”)

获取HTML属性

得到的类属性在HTML段落元素树。

子树= findElement(树,“p”);attr =“类”;str = getAttribute(子树,attr)

str =21日×1的字符串数组<失踪> <失踪>“add_margin_5”<失踪> <失踪> <失踪> <失踪> <失踪>“category_desc”“category_desc”“category_desc”“category_desc”<失踪> <失踪> <失踪>“text-center”<失踪> <失踪> <失踪>“版权”<失踪>

创建一个词云从文本包含在段落元素类“category_desc”。

子树= findElement(树,“p.category_desc”);str = extractHTMLText(子树);图wordcloud (str);

另请参阅

htmlTree|findElement|getAttribute|extractHTMLText|tokenizedDocument