如何从一个网站表提取?

16个视图(30天)
我想从表中提取数据在这个页面(http://www.newyorkschools.com/districts/nyc -区- 11. - html)。
我试着tp使用webread但它并不是为我工作。我试图提取和他们的学校名称和级别的地方,变成一个excel文件。(帮助一个朋友开始遏制计划)
你认为我应该怎么做?
url = http://www.newyorkschools.com/districts/nyc -区- 7. - html的;
data = webread (url)
树= htmlTree (url)
选择器=“学校名称”
子树= findElement(树,选择器)
子树(:)

接受的答案

克里斯托弗Creutzig
克里斯托弗Creutzig 2022年6月7日
这个页面的问题是它没有使用HTML <表> 你要找的数据。否则,您可以简单地使用 readtable (url) 或者 readtable (url, TableIndex = 2)
此外,选择器需要遵循HTML源代码中发现,在这种特定的情况下是不容易。MATLAB控制你不需要。
这里有一些让你开始:
url =“http://www.newyorkschools.com/districts/nyc -区- 7. - html”;
data = webread (url);
树= htmlTree(数据);
标签= findElement(树,“# myTabContent > div”);
学校=选项卡(1);
行= findElement(学校、“.p_div”);
schoolnames = findElement(学校、“.pp-col-40”);
extractHTMLText (schoolnames)
ans =38×1的字符串数组
“学校名称”“公共关系学院”“阿尔弗雷德·e·史密斯职业高中”“字母克斯学院”“社区高中为社会正义”“外语学院的全球研究”“健康机会计划”“hostos - lincoln科学院”“安全火花型184拉斐尔·c·y莫利纳学校”“222”“151年J.H.S.亨利卢伽雷初中”“Jhs 162 l·罗德里格斯De Tio学校”“莫特港村高中预科”“女士203”“女士223实验室金融学院”“新高中探险家”stephen yang是“注:1学校”“注:154乔纳森·d·凯悦学校”“注:156班纳克学校”“注:157年格罗夫希尔学校”“注:161庞塞德利昂学校”“注:18约翰·彼得·曾学校”“注:220莫特港村学校”“注:25双语学校”“注:277”“注:30威尔顿学校”“注:43乔纳斯Bronck学校”“注:49威利斯大道学校”“另外5端口莫里斯学校”“注:65妈妈黑尔学院”

标签

下载188bet金宝搏


释放

R2021a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!