如何从一个网站表提取?
16个视图(30天)
显示旧的评论
我想从表中提取数据在这个页面(http://www.newyorkschools.com/districts/nyc -区- 11. - html)。
我试着tp使用webread但它并不是为我工作。我试图提取和他们的学校名称和级别的地方,变成一个excel文件。(帮助一个朋友开始遏制计划)
你认为我应该怎么做?
url = http://www.newyorkschools.com/districts/nyc -区- 7. - html的;
data = webread (url)
树= htmlTree (url)
选择器=“学校名称”
子树= findElement(树,选择器)
子树(:)
0评论
接受的答案
克里斯托弗Creutzig
2022年6月7日
这个页面的问题是它没有使用HTML
<表>
你要找的数据。否则,您可以简单地使用
readtable (url)
或者
readtable (url, TableIndex = 2)
。
此外,选择器需要遵循HTML源代码中发现,在这种特定的情况下是不容易。MATLAB控制你不需要。
这里有一些让你开始:
url =“http://www.newyorkschools.com/districts/nyc -区- 7. - html”;
data = webread (url);
树= htmlTree(数据);
标签= findElement(树,“# myTabContent > div”);
学校=选项卡(1);
行= findElement(学校、“.p_div”);
schoolnames = findElement(学校、“.pp-col-40”);
extractHTMLText (schoolnames)