extractHTMLText

从HTML中提取文本

折叠所有页面

语法

str = extractHTMLText(代码)

str = extractHTMLText(树)

str = extractHTMLText (＿＿＿、“ExtractionMethod”前)

描述

例子

str= extractHTMLText (代码）解析HTML代码代码并摘录文本。

例子

str= extractHTMLText (树）从HTML树中提取文本。

str= extractHTMLText (＿＿＿“ExtractionMethod”,前女友）还指定要使用的提取方法。

例子

全部折叠

从HTML中提取文本

打开生活的脚本

要直接从HTML代码中提取文本数据，请使用extractHTMLText并将HTML代码指定为字符串。

代码="THE十四行诗
by William Shakespeare
";str = extractHTMLText(代码)

莎士比亚十四行诗

从网站摘录文本

打开生活的脚本

要从网页中提取文本数据，首先使用webread函数读取HTML代码。然后使用extractHTMLText函数返回的代码。

url =“//www.tatmou.com/help/textanalytics”;代码= webread (url);str = extractHTMLText(代码)

发布说明PDF文档发布说明PDF文档文本分析工具箱™为文本数据的预处理、分析和建模提供了算法和可视化。使用工具箱创建的模型可用于情感分析、预测维护和主题建模等应用程序。文本分析工具箱包括用于处理来自设备日志、新闻源、调查、运营商报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式中提取文本，预处理原始文本，提取单个单词，将文本转换为数字表示，并构建统计模型。使用机器学习技术，如LSA、LDA和单词嵌入，您可以从高维文本数据集找到聚类并创建特征。使用Text Analytics Toolbox创建的功能可以与来自其他数据源的功能相结合，以构建利用文本、数字和其他类型数据的机器学习模型。开始学习基本的文本分析工具箱文本数据准备文本数据导入MATLAB®和预处理分析建模和预测开发预测模型使用主题模型和文字嵌入显示和演示可视化文本数据和模型使用词云分散图和文本语言支持金宝app关于文本分析工具箱中的语言支持的信息金宝app

在HTML树中查找元素

打开生活的脚本

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread函数。

url =“//www.tatmou.com/help/textanalytics”;代码= webread (url);

使用。解析HTML代码htmlTree．

树= htmlTree(代码);

使用。查找HTML树中的所有超链接findElement．超链接是带有元素名的节点“一个”．

选择器=“一个”;子树= findElement(树,选择器);

查看前几个子树。

子树(1:10)

ans = 10×1 htmlTree:<类= " skip_link sr-only " href = " # content_container " >跳到内容< / > < A href = " //www.tatmou.com?s_tid=gn_logo " class = " svg_link navbar-brand”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / > < A href = " //www.tatmou.com/pro下载188bet金宝搏ducts.html?s_tid=gn_ps " > < / > <一个产品href = " https://www.mathworks.c金宝搏官方网站om/solutions.html?s_tid=gn_sol " >解决方案< / > < A href = " //www.tatmou.com/academia.html?s_tid=gn_acad " >学术界< / > < A href = " https://www.金宝appmathworks.com/support.html?s_tid=gn_supp " >支持< / > < A href = " //www.tatmou.com/matlabcentral/?s_tid=gn_mlc " > < / > <社区事件href = " //www.tatmou.com/company/events.html?s_tid=gn_ev " > < / > < A href = " https://www.mathwor下载188bet金宝搏ks.com/products/get-matlab.html?s_tid=gn_getml " >得到MATLAB < / > < A href = " //www.tatmou.com?s_tid=gn_logo " class = " svg_link pull-left”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / >

使用。从子树中提取文本extractHTMLText．结果包含页面上每个链接的链接文本。

str = extractHTMLText(子树);str (1:10)

ans =10×1的字符串"跳到内容" "" "产品""解决方案""学下载188bet金宝搏术界""支持""社区"金宝搏官方网站"事件""获取MATLAB" ""金宝app

输入参数

全部折叠

`代码`- - - - - -HTML代码
字符串标量|特征向量|包含单个向量的单元格数组

HTML代码，指定为字符串标量、字符向量或包含单个字符向量的单元格数组。

提示

要从网页中读取HTML代码，请使用webread．
要从HTML文件中提取文本，请使用extractFileText．

例子:“< a href = " //www.tatmou.com " > MathWorks < / >”

数据类型:字符|字符串|细胞

`树`- - - - - -HTML树
`htmlTree`数组

HTML树，指定为htmlTree数组中。

`前女友`- - - - - -提取方法
`“树”`(默认)|`“文章”`|`“所有文本”`

提取方法，指定为以下方法之一:

选项	描述
`“树”`	分析DOM树和文本内容，然后提取段落块。
`“文章”`	检测文章文本并提取段落块。
`“所有文本”`	提取HTML主体中的所有文本，除了脚本和CSS样式。