主要内容

extractHTMLText

从HTML中提取文本

描述

例子

str= extractHTMLText (代码)解析的HTML代码代码和提取文本。

例子

str= extractHTMLText ()从一个HTML树提取文本。

str= extractHTMLText (___“ExtractionMethod”,前女友)还指定了要使用的提取方法。

例子

全部折叠

直接从HTML代码中提取文本数据,使用extractHTMLText和指定的HTML代码作为一个字符串。

代码=“< html > <身体> < h1 >十四行诗由威廉·莎士比亚< / h1 > < p > < / p > < /身体> < / html >”;str = extractHTMLText(代码)
str =“威廉·莎士比亚的十四行诗”

从网页中提取文本数据,第一次使用webread函数来读取HTML代码。然后使用extractHTMLText函数返回的代码。

url =“//www.tatmou.com/help/textanalytics”;代码= webread (url);str = extractHTMLText(代码)
str = '文本分析工具箱分析和模型文本数据发布说明PDF文档发布说明PDF文档文本分析工具箱™提供预处理的算法和可视化、分析、建模和文本数据。使用工具箱创建的模型可以用于应用,如情绪分析、预测性维护,和主题建模。文本分析工具箱包括工具处理原始文本来源设备日志等新闻,调查,运营商报告,和社交媒体。你可以从流行的文件格式中提取文本,原始文本进行预处理,提取单词,将文本转换成数值表示,并建立统计模型。使用机器学习技术,如LSA、LDA和字嵌入的,你可以找到集群和从高维文本数据集创建功能。特征与文本分析工具箱可以创建结合特性从其他数据源构建机器学习模型,利用文本,数字,和其他类型的数据。开始学习基本的文本分析工具箱文本数据准备文本数据导入MATLAB®和预处理分析建模和预测开发预测模型使用主题模型和文字嵌入显示和演示可视化文本数据和模型使用云词和文本语言支持的散点图语言支持信息文本分析工具箱”金宝app

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread函数。

url =“//www.tatmou.com/help/textanalytics”;代码= webread (url);

解析HTML代码使用htmlTree

树= htmlTree(代码);

发现所有的HTML树中的超链接使用findElement。超链接的节点元素名称“一个”

选择器=“一个”;子树= findElement(树,选择器);

查看前几子树。

子树(1:10)
ans = 10×1 htmlTree: < class = " skip_link sr-only " href = " # content_container " >跳到内容< / > < A href = " //www.tatmou.com?s_tid = gn_logo " class = " svg_link navbar-brand " > < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo。svg”类= " mw_logo " alt = " MathWorks " / > < / > < A href = " https://www.math下载188bet金宝搏works.com/products.html?产品s_tid = gn_下载188bet金宝搏ps " > < / > < A href = " https://www.mathworks.金宝搏官方网站com/solutions.html?s_tid = gn_sol金宝搏官方网站 " >解决方案< / > < A href = " //www.tatmou.com/academia.html?学术界s_tid = gn_acad " > < / > < A href = " https://www.mathworks金宝app.com/support.html?s_tid支持= gn_sup金宝appp " > < / > < A href = " //www.tatmou.com/matlabcentral/?社区s_tid = gn_mlc " > < / > < A href = " //www.tatmou.com/company/events.html?事件s_tid = gn_ev " > < / > < A href = " https://www.mathwork下载188bet金宝搏s.com/products/get-matlab.html?s_tid = gn_getml " >得到MATLAB < / > < A href = " //www.tatmou.com?s_tid = gn_logo " class = " svg_link pull-left " > < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo。svg”类= " mw_logo " alt = " MathWorks " / > < / >

从子树中提取文本使用extractHTMLText。结果包含了从每个链接页面上的链接文本。

str = extractHTMLText(子树);str (1:10)
ans =10×1的字符串“跳到内容”“”“产品”“解决方案”“学术界下载188bet金宝搏”“支持”“社会”“事金宝搏官方网站件”“把MATLAB”“金宝app

输入参数

全部折叠

HTML代码,指定为字符串标量,特征向量,或一个细胞包含一个字符数组向量。

提示

  • 阅读从一个web页面的HTML代码,使用webread

  • 从一个HTML文件中提取文本,使用extractFileText

例子:“< a href = " //www.tatmou.com " > MathWorks < / >”

数据类型:字符|字符串|细胞

HTML树,指定为一个htmlTree数组中。

提取方法,指定为以下之一:

选项 描述
“树” 分析DOM树和文本内容,然后提取一块段落。
“文章” 检测条文本和提取一块段落。
“所有文本” 提取所有文本在HTML的身体,除了脚本和CSS样式。

介绍了R2018a