文档帮助中心文档
从HTML中提取文本
str = extractHTMLText(代码)
str = extractHTMLText(树)
str = extractHTMLText (___、“ExtractionMethod”前)
例子
str= extractHTMLText (代码)解析HTML代码代码并摘录文本。
str= extractHTMLText (代码)
str
代码
str= extractHTMLText (树)从HTML树中提取文本。
str= extractHTMLText (树)
树
str= extractHTMLText (___“ExtractionMethod”,前女友)还指定要使用的提取方法。
str= extractHTMLText (___“ExtractionMethod”,前女友)
前女友
全部折叠
要直接从HTML代码中提取文本数据,请使用extractHTMLText并将HTML代码指定为字符串。
extractHTMLText
代码="THE十四行诗by William Shakespeare";str = extractHTMLText(代码)
by William Shakespeare
莎士比亚十四行诗
要从网页中提取文本数据,首先使用webread函数读取HTML代码。然后使用extractHTMLText函数返回的代码。
webread
url =“//www.tatmou.com/help/textanalytics”;代码= webread (url);str = extractHTMLText(代码)
发布说明PDF文档发布说明PDF文档文本分析工具箱™为文本数据的预处理、分析和建模提供了算法和可视化。使用工具箱创建的模型可用于情感分析、预测维护和主题建模等应用程序。文本分析工具箱包括用于处理来自设备日志、新闻源、调查、运营商报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式中提取文本,预处理原始文本,提取单个单词,将文本转换为数字表示,并构建统计模型。使用机器学习技术,如LSA、LDA和单词嵌入,您可以从高维文本数据集找到聚类并创建特征。使用Text Analytics Toolbox创建的功能可以与来自其他数据源的功能相结合,以构建利用文本、数字和其他类型数据的机器学习模型。开始学习基本的文本分析工具箱文本数据准备文本数据导入MATLAB®和预处理分析建模和预测开发预测模型使用主题模型和文字嵌入显示和演示可视化文本数据和模型使用词云分散图和文本语言支持金宝app关于文本分析工具箱中的语言支持的信息金宝app
从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread函数。
//www.tatmou.com/help/textanalytics
url =“//www.tatmou.com/help/textanalytics”;代码= webread (url);
使用。解析HTML代码htmlTree.
htmlTree
树= htmlTree(代码);
使用。查找HTML树中的所有超链接findElement.超链接是带有元素名的节点“一个”.
findElement
“一个”
选择器=“一个”;子树= findElement(树,选择器);
查看前几个子树。
子树(1:10)
ans = 10×1 htmlTree:<类= " skip_link sr-only " href = " # content_container " >跳到内容< / > < A href = " //www.tatmou.com?s_tid=gn_logo " class = " svg_link navbar-brand”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / > < A href = " //www.tatmou.com/pro下载188bet金宝搏ducts.html?s_tid=gn_ps " > < / > <一个产品href = " https://www.mathworks.c金宝搏官方网站om/solutions.html?s_tid=gn_sol " >解决方案< / > < A href = " //www.tatmou.com/academia.html?s_tid=gn_acad " >学术界< / > < A href = " https://www.金宝appmathworks.com/support.html?s_tid=gn_supp " >支持< / > < A href = " //www.tatmou.com/matlabcentral/?s_tid=gn_mlc " > < / > <社区事件href = " //www.tatmou.com/company/events.html?s_tid=gn_ev " > < / > < A href = " https://www.mathwor下载188bet金宝搏ks.com/products/get-matlab.html?s_tid=gn_getml " >得到MATLAB < / > < A href = " //www.tatmou.com?s_tid=gn_logo " class = " svg_link pull-left”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / >
使用。从子树中提取文本extractHTMLText.结果包含页面上每个链接的链接文本。
str = extractHTMLText(子树);str (1:10)
ans =10×1的字符串"跳到内容" "" "产品""解决方案""学下载188bet金宝搏术界""支持""社区"金宝搏官方网站"事件""获取MATLAB" ""金宝app
HTML代码,指定为字符串标量、字符向量或包含单个字符向量的单元格数组。
提示
要从网页中读取HTML代码,请使用webread.
要从HTML文件中提取文本,请使用extractFileText.
extractFileText
例子:“< a href = " //www.tatmou.com " > MathWorks < / >”
“< a href = " //www.tatmou.com " > MathWorks < / >”
数据类型:字符|字符串|细胞
字符
字符串
细胞
HTML树,指定为htmlTree数组中。
“树”
“文章”
“所有文本”
提取方法,指定为以下方法之一:
extractFileText|readPDFFormData|writeTextDocument|webread|tokenizedDocument|htmlTree
readPDFFormData
writeTextDocument
tokenizedDocument
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系