这个示例展示了如何解析HTML代码并从特定元素中提取文本内容。
从URL读取HTML代码//www.tatmou.com/help/textanalytics.
使用webread
.
URL =.“//www.tatmou.com/help/textanalytics”;代码= webread (url);
使用。解析HTML代码htmlTree
.
树= htmlTree(代码);
查看树的HTML元素名。
树。名称
ans =“HTML”
查看树的子元素。子树是树
.
树。孩子们
ans = 4×1 htmltree:“”文本分析工具箱文档 title> <链接HREF =”/包含_CONTENT /响应/ CSS / Bootstrap / Bootstrap.min.css“rel =“stylesheet”类型=“text / css”/> <链接href =“/includes_content/responsive/css/site6_lg.css?20180314”media =“屏幕和(min-width:1200px)”rel =“样式表”/> <! - mobile topnav:start - > <按钮类=“Navbar-toggle topnav_toggle”data-target =“#topnav_collapse”data-toggle =“collapse”type =“按钮”> 切换主导航 span> button> div> div> div>从HTML树提取文本
要直接从HTML树中提取文本,请使用
extractHTMLText
.str = extractHTMLText(树)str =“Text Inalytics Toolbox™提供用于预处理,分析和建模文本数据的算法和可视化。使用工具箱创建的型号可以在情感分析,预测性维护和主题建模等应用中使用。文本分析工具箱包括用于处理的工具来自设备日志,新闻源,调查,运营商报告和社交媒体等来源的原始文本。您可以从流行的文件格式,预处理原始文本中提取文本,提取单个单词,将文本转换为数字表示,并构建统计模型。使用LSA,LDA和Word Embeddings等机器学习技术,您可以找到群集并从高维文本数据集创建功能。使用文本分析工具箱创建的功能可以与其他数据源的功能组合,以构建机器学习模型文本,数字和其他类型的数据。“找到HTML元素
找到HTML树的特定元素,使用
Fedelement.
.在HTML树中找到所有超链接。在HTML中,超链接使用“A”标签。选择器=“一种”;子树= findElement(树,选择器);
查看前几个子树。
子树(1:20)ans = 20×1 htmlTree:< class = " svg_link navbar-brand " href = " //www.tatmou.com?s_tid=gn_logo " > < IMG alt = " MathWorks " class = " mw_logo " src = " /图片/响应全球/ pic-header-mathworks-logo.svg " / > < / > < class = " mwa-nav_login " href = " //www.tatmou.com/login?uri=http: / / www.tatmou.com/help/textanalytics/index.html " >在< / > <迹象产品href = " https://www.mathworks下载188bet金宝搏.com/products.html?s_tid=gn_ps " > < / > < A href = " https://www.mathworks金宝搏官方网站.com/solutions.html?s_tid=gn_sol " >解决方案< / > < A href = " //www.tatmou.com/academia.html?s_tid=gn_acad " >学术界< / > < A href = "金宝app //www.tatmou.com/support.html?s_tid=gn_supp " > < / > <支持社区href = " //www.tatmou.com/matlabcentral/?s_tid=gn_mlc " > < / > < A href = " //www.tatmou.com/company/events.html?s_tid=gn_ev " >事件< / > < A href = " //www.tatmou.com/company/aboutus/contact_us.html?s_tid=gn_cntus " >联系我们< / > < A href = " //www.tatmou.com/store?s_cid=store_top_nav& s_tid = gn_store " > < / > <买href="//www.tatmou.com/jp/company/aboutus/contact_us.html?s_tid=gn_cntus">Contact Us How to Buy Sign In Products Solutions Academia Support Community Events从超链接的文本创建一个单词云。
str = extracthtmltext(子树);图WordCloud(str);标题(“超链接”)
获取HTML属性
从HTML树中的段落元素中获取类属性。
子树= findElement(树,“p”);attr =“班级”;str = getAttribute(attrees,attr)str =21日×1的字符串数组<缺失> <缺失>“add_margin_5”<缺失> <缺失> <缺失> <缺失> <缺失><缺失> <缺失> <缺失>”文本中心“<缺少> <缺失> <缺失>“版权”<缺失> 从包含类中包含的文本中包含的文本中创建一个单词云
“category_desc”
.子树= findElement(树,“p.category_desc”);str = extracthtmltext(子树);图WordCloud(str);
另请参阅
htmlTree
|Fedelement.
|getAttribute.
|extractHTMLText
|令人畏缩的鳕文
相关的话题