由于别的项目组在做舆情的预言项目,我手头正好没有什么项目,突然心血来潮想研究一下爬虫、分析的简单原型。网上查查这方面的资料还真是多,眼睛都看花了。搜了搜对于我这种新手来说,想做一个简单的爬虫程序,所以HttpClient + jsoup是一个不错的选择。前者用来管理请求,后者用来解析页面,主要是后者的select语法很像jquery,对于用js的我来说方便太多了。
昨天和他们聊天的时候,他们选用了几个著名的开源框架使用,聊着聊着就发现原来他们目前还没有办法抓取动态的网页,尤其是几个重要的数字,例如评论数,回帖数等等。大致了解了一下,例如TRS的爬虫,对于js的调用,需要写js脚本,但是分析量巨大,他们的技术人员告诉我们,类似这样的模板他们配的话,一天也就只能配2到3个,更不要说我们这些半路出家的。正好觉得颇有挑战,所以昨天答应了他们看看能不能找到一个相对来说简单的解决办法,当然,先不考虑效率。
举一个简单的例子,如下图
“我有话说”后的1307就是后加载的,但是往往这些数字对于舆情分析来说还是比较重要的。
大致了解了需求,就分析一下如何解决。通常,我们的一次请求,得到的回应是包含js代码和html元素的,所以对于jsoup这样的html解析器在这里就难以发挥优势,因为它所能拿到的html,1307还没有生成。这个时候就需要一个可运行js的平台,将运行过js代码的后的页面,交由html解析,这样才能正确获得结果。
由于我比较偷懒,写脚本的方式一开始就被我抛弃了,因为分析一个页面太痛苦了,代码乱成一锅粥,好多还采用压缩的办法,满眼都是a(),b()的方法,看的太累了。所以我最优先想到的是,为什么我不能让这个地址在某个浏览器中运行,然后将运行的结果交给html解析器去解析,那么整个问题不就迎刃而解了吗。这样我暂时的解决方案就是在爬虫服务端,开一个后台的浏览器,或者是有浏览器内核的程序,将url地址交给它去请求,然后从浏览器中将页面的元素取出,交给html解析器去解析,从而获取自己想要的信息。
没错,最后我还是使用了Selenium,去实现上一篇我所说的问题,别的没有试,只试了一下firefox的引擎,总体效果对我来说还是可以接受的。
继续昨天的话题,既然要实现上篇所说的问题,那么就需要一个可以执行js代码的框架。我首先选择的是htmlunit,先简单介绍一下htmlunit。下面一段摘自网络。
htmlunit 是一款开源的 java 页面分析工具,启动 htmlunit 之后,底层会启动一个无界面浏览器,用户可以指定浏览器类型:firefox、ie 等,如果不指定,默认采用 INTERNET_EXPLORER_7: WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6); 通过简单的调用: HtmlPage page = webClient.getPage(url); 即可得到页面的 HtmlPage 表示,然后通过: InputStream is = targetPage.getWebResponse().getContentAsStream() 即可得到页面的输入流,从而得到页面的源码,这对做网络爬虫的项目来说,很有用。 当然,也可以从 page 中得更多的页面元素。 很重要的一点是,HtmlUnit 提供对执行 javascript 的支持: page.executeJavaScript(javascript) 执行 js 之后,返回一个 ScriptResult 对象,通过该对象可以拿到执行 js 之后的页面等信息。默认情况下,内部浏览器在执行 js 之后,将做页面跳转,跳转到执行 js 之后生成的新页面,如果执行 js 失败,将不执行页面跳转。 |
最后可以取得page.executeJavaScript(javascript).getNewPage(),获取执行后的页面。换句话说,javascript需要在这里人为的执行,显然与我的初衷不符,另外可能是我水平太差,在抓取sina新闻的页面时总是出错,暂时还没发现错误在何处,但按照网络上查询的结果来分析,极有可能错误的原因是在于htmlunit执行某些带参数的请求时,由于参数的顺序或者编码问题会导致请求失败而报错。关键是,运行后并没有得到我需要的结果。
那么就另寻解决办法,这个时候就找到了Selenium WebDriver,他是我需要的一个解决方案。
参考了资料和例子,就可以开始使用他了。实例代码如下。
1 File pathToBinary = new File("D:\\Program Files (x86)\\Mozilla Firefox\\firefox.exe"); 2 FirefoxBinary ffBinary = new FirefoxBinary(pathToBinary); 3 FirefoxProfile firefoxProfile = new FirefoxProfile(); 4 FirefoxDriver driver = new FirefoxDriver(ffBinary,firefoxProfile); 5 6 7 driver.get("http://cq.qq.com/baoliao/detail.htm?294064"); 8 9 ArrayList list = new ArrayList(); 10 list.add("http://www.sina.com.cn"); 11 list.add("http://www.sohu.com"); 12 list.add("http://www.163.com"); 13 list.add("http://www.qq.com"); 14 15 long start,end; 16 17 for(int i=0;i<list.size();i++){ 18 start = System.currentTimeMillis(); 19 driver.get(list.get(i).toString()); 20 end = System.currentTimeMillis(); 21 System.out.println(list.get(i).toString() + ":" + (end - start)); 22 } 23 24 driver.close();
使用了firefox的引擎,得到的结果如下,而且确实满足了我的要求。
http://www.sina.com.cn:6638
http://www.sohu.com:5796
http://www.163.com:7567
http://www.qq.com:9384
可以看见如上的结果时间还是蛮长的,那如何加快速度呢。其实仔细考虑一下,为什么他要这么久,就是因为他在下载网页元素,我们请求一个网站的时候是发起一个req,得到一个res,而res中是只有元素没有内容的,换句话说,他不用执行css,js,不用下载图片,flash,加载广告等等。而如果我们需要加快效率,那就需要移除一切与我分析无关的东西,那么仿照浏览器一样,我们需要屏蔽掉css,图片,flash等等,从而加速网页的速度,更关心其中的内容。
简单方法如下:
1 //去掉css firefoxProfile.setPreference("permissions.default.stylesheet", 2); 2 //去掉图片 3 firefoxProfile.setPreference("permissions.default.image", 2); 4 //去掉flash firefoxProfile.setPreference("dom.ipc.plugins.enabled.libflashplayer.so",false);
那么在去除掉所有firefox缓存后,再次运行一下,会有什么结果呢。结果如下
http://www.sina.com.cn:5085
http://www.sohu.com:3520
http://www.163.com:3329
http://www.qq.com:2048
发现确实快了很多。上面只是一个大致的原型,如果真正的要用,还需要封装。
上一篇讨论了web driver对动态网页的抓取与分析,可以很清楚的看出这是一种集中式处理方式,简单说,就是利用服务器,打开一个真正的brower,然后将需要解析的地址交给浏览器,浏览器去解析,然后将结果返回。这样正如网友评论一样,效率上不好,其实我想说的是,如果质提不上去,可以采用量的方式,比如开多线程处理,多开几台机器处理,虽然单个不快,量多后,处理速度就上去了。当然这也不是什么特别好的方法。
先谈谈他的不好之处:
首先,依赖浏览器的驱动,无论使用ie,firefox,chrome,都需要启动其driver,才能进行操作。
其次,对响应结果控制力度不够自由,比如有些网页我需要一个东西,有些网页我需要另一个东西,那么我希望是,可以对响应结果进行解析和过滤。
最后,他是一个集中式处理的方式,现在啥都讲求分布式,当然不能为了分布而分布,不过在利用brower的资源时,分布是一个好的解决方法。
那么,我还能做什么了,今天和同事聊的时候突然想到一个方案,也许会有一些帮助。当然,目前只是一个想法,不过后续我会去试验可行性,我相信估计也有人这么试过。让我们重新回归原点,从上一篇的解决方案中可以看出,其实我们采用的基本是一种类似黑盒的测试方式,也就是说,我们根本没有分析这些动态网页的构成,只是单纯的将网页让浏览器去解析,然后我们取得结果,(当然这里先不考虑一些复杂的ajax请求)。这里有两个要素,一就是浏览器,使用的web driver;二就是浏览器去解析,并做了请求和响应。
为什么我不能采用分布式处理呢?利用客户端的资源来解析动态网页,这样不就减轻了压力,而且可以大大增加处理地址的能力。我的想法是这样的:
1、开发一个简单的网页,用来访问。例如一个jsp
2、将需要进行解析的地址通过参数的形式传给这个页面。例如采用xxx.jsp?url='www.sina.com.cn'
3、后台截获这个req,然后根据新的url也就是"http://www.sina.com.cn",发起一个新的httprequest,将这个response,write给前面这个res.
这样其实就是将sina的respose,交给了我这个jsp。
4、这样,我就可以做一些手脚,例如获取response的时候,采用html解析器,并利用规则过滤掉一些元素或者添加一些我们需要的脚本代码,并将这个修改后的response,交个浏览器去执行。最后获取执行后的结果,再交给服务器处理或者保存。
这样就避免掉一开始的一些问题。首先,与浏览器driver无关,也就是说如果用ie访问,就利用ie引擎;用firefox访问,就利用firefox引擎。就可以脱离web driver。其次,可以对结果进行自由控制,采用html解析器,就可以按照自己的规则来过滤响应。最后,利用这种方式就是一种分布式的处理,也就是说凡是访问我页面的浏览器,都可以用来进行页面解析,而且可以不占用我服务器的带宽。
可见的问题在于:
1、如何控制客户端去访问我想要的网址。
2、如何将访问后的内容传回后台处理。
3、由于篡改了响应,带来的Cross Domain的问题会不会影响到我的解析结果。
4、如何知道页面已经加载完毕。
5、采用何种解析器解析。