如何从一个网站表提取?

16个视图(30天)

显示旧的评论

克里斯托弗•泰勒 2022年6月3日

0
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/1732795-how-do-you-extract-from-a-website-table

回答: 克里斯托弗Creutzig 2022年6月7日

答:接受克里斯托弗Creutzig

我想从表中提取数据在这个页面(http://www.newyorkschools.com/districts/nyc -区- 11. - html)。

我试着tp使用webread但它并不是为我工作。我试图提取和他们的学校名称和级别的地方,变成一个excel文件。(帮助一个朋友开始遏制计划)

你认为我应该怎么做?

url = http://www.newyorkschools.com/districts/nyc -区- 7. - html的;

data = webread (url)

树= htmlTree (url)

选择器=“学校名称”

子树= findElement(树,选择器)

子树(:)

0评论
显示1年长的评论藏1年长的评论

登录置评。

在回答这个问题。

接受的答案

克里斯托弗Creutzig 2022年6月7日

1
链接

直接链接到这个答案

//www.tatmou.com/matlabcentral/answers/1732795-how-do-you-extract-from-a-website-table answer_980420

这个页面的问题是它没有使用HTML <表> 你要找的数据。否则,您可以简单地使用 readtable (url) 或者 readtable (url, TableIndex = 2) 。

此外,选择器需要遵循HTML源代码中发现,在这种特定的情况下是不容易。MATLAB控制你不需要。

这里有一些让你开始:

                              url =“http://www.newyorkschools.com/districts/nyc -区- 7. - html”;
                             
                              data = webread (url);
                             
                              树= htmlTree(数据);
                             
                              标签= findElement(树,“# myTabContent > div”);
                             
                              学校=选项卡(1);
                             
                              行= findElement(学校、“.p_div”);
                             
                              schoolnames = findElement(学校、“.pp-col-40”);
                             
                              extractHTMLText (schoolnames)
                             
                                 ans =38×1的字符串数组
                                
                                 “学校名称”“公共关系学院”“阿尔弗雷德·e·史密斯职业高中”“字母克斯学院”“社区高中为社会正义”“外语学院的全球研究”“健康机会计划”“hostos - lincoln科学院”“安全火花型184拉斐尔·c·y莫利纳学校”“222”“151年J.H.S.亨利卢伽雷初中”“Jhs 162 l·罗德里格斯De Tio学校”“莫特港村高中预科”“女士203”“女士223实验室金融学院”“新高中探险家”stephen yang是“注:1学校”“注:154乔纳森·d·凯悦学校”“注:156班纳克学校”“注:157年格罗夫希尔学校”“注:161庞塞德利昂学校”“注:18约翰·彼得·曾学校”“注:220莫特港村学校”“注:25双语学校”“注:277”“注:30威尔顿学校”“注:43乔纳斯Bronck学校”“注:49威利斯大道学校”“另外5端口莫里斯学校”“注:65妈妈黑尔学院”