htmlTree

解析的HTML树

展开全部页面

描述

一个htmlTreeobject表示已解析的HTML元素或节点。方法提取感兴趣的部分findElement函数或孩子们属性提取文本extractHTMLText函数。

创建

语法

树= htmlTree(代码)

描述

例子

树= htmlTree (代码）解析字符串中的HTML代码代码并返回生成的树结构。

提示

要解析XML代码，请使用readstruct函数。

输入参数

全部展开

`代码`- - - - - -HTML代码
字符串数组|特征向量|字符向量的单元格数组

HTML代码，指定为字符串数组、字符向量或字符向量的单元格数组。

提示

要从网页中读取HTML代码，请使用webread．
要从HTML文件中提取文本，请使用extractFileText．

例子:“< a href = " //www.tatmou.com " > MathWorks < / >”

数据类型:字符|字符串|细胞

属性

全部展开

`孩子们`- - - - - -元素的直接子元素
`htmlTree`数组

元素的直接后代，指定为htmlTree数组中。

`父`- - - - - -父节点
`htmlTree`对象

树中的父节点，指定为htmlTree对象。

如果HTML树是根节点，则父是失踪．

`的名字`- - - - - -HTML元素名称
字符串标量

HTML元素名称，指定为字符串标量。

有关更多信息，请参见HTML元素．

对象的功能

`findElement`	在HTML树中查找元素
`getAttribute`	读取HTML树根节点的HTML属性
`extractHTMLText`	从HTML中提取文本
`ismissing`	查找没有值的HTML树

例子

全部折叠

解析HTML代码

打开实时脚本

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread．

url =“//www.tatmou.com/help/textanalytics”；代码= webread(url);

使用解析HTML代码htmlTree．

tree = htmlTree(code);

查看树的根节点的元素名称。

树。的名字

ans = "HTML"

查看根节点的子节点。

树。孩子们

ans = 4×1 htmlTree: " " 文本分析工具箱文档




< A class="mwa-nav_login" href="//www.tatmou.com/jp/login?uri=/help/textanalytics/index.html">Sign…

从HTML树中提取文本extractHTMLText．

str = extractHTMLText(树)

文本分析工具箱™为预处理、分析和建模文本数据提供了算法和可视化。使用工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用程序。文本分析工具箱包括用于处理来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。使用诸如LSA、LDA和词嵌入等机器学习技术，您可以从高维文本数据集中找到集群并创建特征。使用文本分析工具箱创建的功能可以与来自其他数据源的功能相结合，以构建利用文本、数字和其他类型数据的机器学习模型。”

在HTML树中查找元素

打开实时脚本

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread函数。

url =“//www.tatmou.com/help/textanalytics”；代码= webread(url);

使用解析HTML代码htmlTree．

tree = htmlTree(code);

查找HTML树中的所有超链接findElement．超链接是具有元素名称的节点“一个”．

选择器=“一个”；subtrees = findElement(树，选择器);

查看前几个子树。

子树(1:10)

ans = 10×1 htmlTree:<类= " skip_link sr-only " href = " # content_container " >跳到内容< / > < A href = " //www.tatmou.com?s_tid=gn_logo " class = " svg_link navbar-brand”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / > < A href = " //www.tatmou.com/pro下载188bet金宝搏ducts.html?s_tid=gn_ps " >产品< / > < A href = " //www.tatmou.com/so金宝搏官方网站lutions.html?s_tid=gn_sol " >解决方案< / > < A href = " //www.tatmou.com/academia.html?s_tid=gn_acad " >学术界< / > <支持href = " https://www.mathworks金宝app.com/support.html?s_tid=gn_supp " > < / > < A href = " //www.tatmou.com/matlabcentral/?s_tid=gn_mlc " >社区< / > < A href = " //www.tatmou.com/company/events.html?s_tid=gn_ev " >事件< / > < A href = " https://www.mathw下载188bet金宝搏orks.com/products/get-matlab.html?s_tid=gn_getml " >得到MATLAB < / > < A href = " //www.tatmou.com?s_tid=gn_logo " class = " svg_link pull-left”> < IMG src = " /图片/响应/全球/ pic-header-mathworks-logo.svg”类=“mw_logo”alt = " MathWorks " / > < / >

从子树中提取文本extractHTMLText．结果包含页面上每个链接的链接文本。

str = extractHTMLText(subtrees);str (1:10)

ans =10×1的字符串“跳到内容" "" "产品”“解决方案”“学下载188bet金宝搏术界”“支持”“社区”金宝搏官方网站“事件”“获取MATLAB”“”金宝app

获取HTML标签的属性

打开实时脚本

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread．

url =“//www.tatmou.com/help/textanalytics”；代码= webread(url);

使用解析HTML代码htmlTree．

tree = htmlTree(code);

查找HTML树中的所有超链接findElement．超链接是具有元素名称的节点“一个”．

选择器=“一个”；subtrees = findElement(树，选择器);子树(1:10)

ans = 10×1 htmlTree:< class = " svg_link navbar-brand " href = " //www.tatmou.com?s_tid=gn_logo " > < IMG alt = " MathWorks " class = " mw_logo " src = " /图片/响应全球/ pic-header-mathworks-logo.svg " / > < / > < class = " mwa-nav_login " href = " //www.tatmou.com/login?uri=http: / / www.tatmou.com/help/textanalytics/index.html " >在< / > < A href = " https:下载188bet金宝搏//www.tatmou.com/products.html?s_tid=gn_ps " >产品< / > < A href = " https金宝搏官方网站://www.tatmou.com/solutions.html?s_tid=gn_sol " > < / > <一个解决方案学术界href = " //www.tatmou.com/academia.html?s_tid=gn_acad " > < / > < A href = " https://www.mathwork金宝apps.com/support.html?s_tid=gn_supp " > < / >支持社区< A href = " //www.tatmou.com/matlabcentral/?s_tid=gn_mlc " > < / > < A href = " //www.tatmou.com/company/events.html?s_tid=gn_ev " >事件< / > < A href = " //www.tatmou.com/company/aboutus/contact_us.html?s_tid=gn_cntus " >联系我们< / > < A href = " //www.tatmou.com/store?s_cid=store_top_nav& s_tid = gn_store " >如何购买< / >

使用获取超链接引用getAttribute．指定属性名“href”．

attr =“href”；str = getAttribute(subtrees,attr);str (1:10)

ans =10×1字符串数组//www.tatmou.com?s_tid=gn_logo“//www.tatmou.com/login?uri=//www.tatmou.com/help/textanalytics/index.html”“//www.tatmou.com/prod下载188bet金宝搏ucts.html?s_tid=gn_ps”“//www.tatmou.com/solut金宝搏官方网站ions.html?s_tid=gn_sol”“//www.tatmou.com/academia.html?s_tid=gn_acad”“https://www.mat金宝apphworks.com/support.html?s_tid=gn_supp”“//www.tatmou.com/matlabcentral/?s_tid=gn_mlc”“//www.tatmou.com/company/events.html?s_tid=gn_ev”“//www.tatmou.com/company/aboutus/contact_us.html?s_tid=gn_cntus”“//www.tatmou.com/store?s_cid=store_top_nav&s_tid=gn_store”

转换解析HTML代码为字符串

打开实时脚本

从URL读取HTML代码//www.tatmou.com/help/textanalytics使用webread函数。

url =“//www.tatmou.com/help/textanalytics”；代码= webread(url);

方法解析HTML代码htmlTree函数。

tree = htmlTree(code);

控件查找HTML树中的所有段落findElement函数。段落是元素名为“P”的节点。

subtrees = findElement(树，“P”）;

方法将子树转换为字符串字符串函数。

STR = string(subtrees)

str =26日×1的字符串"

(文档 (帮助中心 (

) " "

文本分析工具箱™提供预处理、分析和建模文本数据的算法和可视化。使用工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用程序。

" "

文本分析工具箱包括用于处理来自设备日志、新闻提要、调查、操作员报告和社交媒体等来源的原始文本的工具。您可以从流行的文件格式提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。

" "

使用机器学习技术，如LSA、LDA和词嵌入，您可以从高维文本数据集中找到集群并创建特征。使用“文本分析工具箱”创建的功能可以与来自其他数据源的功能相结合，以构建利用文本、数字和其他类型数据的机器学习模型。 " < P类=“category_desc”>学习基本的文本分析工具箱 " < P类=“category_desc”>文本数据导入MATLAB <一口>®> < /晚餐和预处理分析 " < P类=“category_desc”>开发预测模型使用主题模型和词嵌入的 " < P类=“category_desc”>可视化文本数据和模型使用云词和文本散点图 " < P类=“category_desc”>语言支持的信息以文本分析工具箱 " 你点击一个链接金宝app对应于此MATLAB命令:

" "

在MATLAB命令窗口中输入该命令运行。Web浏览器不支持MATLAB命令。金宝app

" "

选择一个网站获取可用的翻译内容，并查看当地的活动和优惠。根据您的位置，我们建议您选择:。

" "
You can also select a web site from the following list:
" "
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
" "
↵ Contact your local office↵
" "
Explore Products
" "
Try or Buy
" "
Learn to Use
" "
Get Support
" "
About MathWorks
" "
↵ MathWorks↵
" "
↵ Accelerating the pace of engineering and science↵
" "
MathWorks is the leading developer of mathematical computing software for engineers and scientists.
" "
↵ Discover...↵
" "
© 1994-2021 The MathWorks, Inc.
" "
↵ Join the conversation↵
"

更多关于

全部展开

HTML元素

一个典型的HTML元素包含以下组件:

元素名称——HTML标记的名称。元素名称对应于的名字属性的HTML树。

Attributes -关于标签的附加信息。HTML属性有表单的名字= "价值＂,在那里的名字而且价值分别表示属性名和值。属性出现在开始的HTML标记中。要从HTML树中获取属性值，请使用getAttribute．

Content——元素内容。内容出现在打开和关闭HTML标记之间。内容可以是文本数据或嵌套的HTML元素。类中提取文本htmlTree对象,使用extractHTMLText．类的嵌套HTML元素htmlTree对象时，使用孩子们财产。

例如，HTML元素回家的< a href = " //www.tatmou.com " > < / >包括以下部分:

组件价值描述

元素名称 一个 元素是一个超链接

属性属性名称 href 超链接引用

属性值 “//www.tatmou.com” 超链接参考值

内容 首页 要显示的文本

兼容性的考虑

全部展开

htmlTree使用不同的算法来重新构造格式错误的HTML

R2021a的行为发生了变化

当创建htmlTree对象，软件自动重组畸形的输入HTML代码具有有效的结构。这个重构过程包括添加、删除和编辑元素，以及重新排列树结构。从R2021a开始，该软件使用更新的算法来重新构造格式错误的HTML。这种变化会导致htmlTree与以前的版本相比，在R2021a或更高版本中创建的对象具有不同的大小、结构和内容。

从R2021a开始，加载时htmlTree在R2020b或之前创建的MAT文件中的对象，软件自动重新构造htmlTree对象，使用与创建时相同的算法htmlTree对象。当加载htmlTree在R2021a或更高版本中创建的MAT文件中的对象，软件不会重新构造htmlTree对象。

下表列出了重组过程中一些值得注意的步骤:

一步行为改变

自动添加标题和标题元素。
从R2021a开始，当创建htmlTree对象从HTML代码，软件自动插入缺失< >头，<标题>，以及其他元素。在以前的版本中，htmlTree对象只在这些元素出现在输入代码中时包含它们。
当加载htmlTree对象从MAT文件创建在较早的版本，软件自动插入< >头而且<标题>元素。当加载htmlTree在R2021a或更高版本创建的MAT文件中的对象，软件不会自动插入这些元素。

自动添加缺失的元素。
从R2021a开始，当创建htmlTree对象，当父元素和子元素不一致时，软件会自动插入缺失的元素。例如，当一个<李>元素没有父元素< ul >(无序列表)或< ol >(无序列表)元素，软件自动添加一个< ul >元素使HTML有效。与早期版本相比，这可能会导致不同的输出。
当加载htmlTree在早期版本中创建的MAT文件中的对象，软件会自动插入缺失的元素。当加载htmlTree在R2021a或更高版本中创建的MAT文件中的对象，软件不会自动插入缺失的元素。

丢弃部分格式错误的代码。
当创建htmlTree对象中含有格式错误的HTML代码，软件可能会丢弃部分文本。例如，如果输入代码是字符串“< div > < /”，然后软件就会丢弃文本“< /”．

另请参阅

extractHTMLText|readPDFFormData|findElement|getAttribute|ismissing|tokenizedDocument

主题

解析HTML和提取文本内容

从文件中提取文本数据

为分析准备文本数据

创建简单的文本分类模型

在R2018b中引入

组件	价值	描述
元素名称	`一个`	元素是一个超链接
属性	属性名称	`href`	超链接引用
属性值	`“//www.tatmou.com”`	超链接参考值
内容	`首页`	要显示的文本

一步	行为改变
自动添加标题和标题元素。	从R2021a开始，当创建`htmlTree`对象从HTML代码，软件自动插入缺失`< >头`，`<标题>`，以及其他元素。在以前的版本中，`htmlTree`对象只在这些元素出现在输入代码中时包含它们。当加载`htmlTree`对象从MAT文件创建在较早的版本，软件自动插入`< >头`而且`<标题>`元素。当加载`htmlTree`在R2021a或更高版本创建的MAT文件中的对象，软件不会自动插入这些元素。
自动添加缺失的元素。	从R2021a开始，当创建`htmlTree`对象，当父元素和子元素不一致时，软件会自动插入缺失的元素。例如，当一个`<李>`元素没有父元素`< ul >`(无序列表)或`< ol >`(无序列表)元素，软件自动添加一个`< ul >`元素使HTML有效。与早期版本相比，这可能会导致不同的输出。当加载`htmlTree`在早期版本中创建的MAT文件中的对象，软件会自动插入缺失的元素。当加载`htmlTree`在R2021a或更高版本中创建的MAT文件中的对象，软件不会自动插入缺失的元素。
丢弃部分格式错误的代码。	当创建`htmlTree`对象中含有格式错误的HTML代码，软件可能会丢弃部分文本。例如，如果输入代码是字符串`“< div > < /”`，然后软件就会丢弃文本`“< /”`．

Matlabコマンド

次のmatlabコマンドに対応するリンクがクリックされました。

コマンドをmatlabコマンドウィンドウに入力して実行してください。Webブラウザ，はMATLABコマンドをサポ，トしていません。

选择网站

选择一个网站，在可用的地方获得翻译的内容，并查看当地的活动和优惠。根据您所在的位置，我们建议您选择:．
选择网站

您也可以从以下列表中选择一个网站:

如何获得最佳的网站性能

选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。

美洲

美国拉丁(西班牙语)

加拿大(英语)

美国(英语)

欧洲

比利时(英语)

丹麦(英语)

德国(德语)

西班牙(西班牙语)

芬兰(英语)

法国(法语)

爱尔兰(英语)

意大利(意大利语)

卢森堡(英语)

荷兰(英语)

挪威(英语)

奥地利(德语)

葡萄牙(英语)

瑞典(英语)

瑞士

多伊奇

英语

法语

联合王国(英语)

亚太地区

澳大利亚(英语)

印度(英语)

新西兰(英语)

中国

简体中文

英语

日本(日本語)

한국(한국어)

联系当地办事处

評価版

評価版

製品の更新

製品の更新

文本分析工具箱文档

例子

功能

发布说明

PDF文档

金宝app

MATLAB的答案

安装帮助

错误报告

产品需求

软件下载

开始使用MATLAB中的文本分析
立即下载

MathWorks

加快工程和科学的步伐

MathWorksはエンジニアや研究者向け数値解析ソフトウェアのリ，ディングカンパニ，です。

ディスカバ……

製品を見る

MATLAB

金宝app

学生向けソフトウェア

ハ，ドウェアサポ，ト

文件交换

試す，購入する

ダウンロ，ド

評価版ソフトウェア

営業へのお問い合わせ

価格とラ@ @センス

MathWorksストア

使い方を学ぶ

ドキュメンテ，ション

チュ，トリアル

例

ビデオ·Webセミナ

トレ，ニング

サポ，トを受ける

ンスト，ルのヘルプ

MATLAB的答案

技術コンサルティング

ラセンスセンタ

サポ，トへのお問い合わせ

MathWorksにいて

採用情報

ニュ，スル，ム

社会貢献

営業へのお問い合わせ

MathWorksにいて

日本

トラストセンタ

商標

プラバシポリシ

違法コピ，防止

アプリケ，ションステ，タス

©1994-2021 MathWorks, Inc.

Matlabを語ろう

htmlTree

描述

创建

语法

描述

输入参数

代码- - - - - -HTML代码字符串数组|特征向量|字符向量的单元格数组

属性

孩子们- - - - - -元素的直接子元素htmlTree数组

父- - - - - -父节点htmlTree对象

的名字- - - - - -HTML元素名称字符串标量

对象的功能

例子

解析HTML代码

在HTML树中查找元素

获取HTML标签的属性

转换解析HTML代码为字符串

更多关于

HTML元素

兼容性的考虑

htmlTree使用不同的算法来重新构造格式错误的HTML

另请参阅

主题

文本分析工具箱文档

金宝app

开始使用MATLAB中的文本分析

`代码`- - - - - -HTML代码
字符串数组|特征向量|字符向量的单元格数组

`孩子们`- - - - - -元素的直接子元素
`htmlTree`数组

`父`- - - - - -父节点
`htmlTree`对象

`的名字`- - - - - -HTML元素名称
字符串标量

`htmlTree`使用不同的算法来重新构造格式错误的HTML