爬虫类的需求,基本上在各个公司都会有,难免就会落在前端开发的头上。今天我们就来看看 Node 如何爬数据。
其实抓取数据对于前端来说,就是 ajax 请求一个接口,只不过返回值有 text/html
(早期 XML 之类的),application/json
(目前工作中都是这个类型的) 两种。有时候为了一些简单的数据分析,我就直接在控制台请求数据。
页面发起的 request 和 node 发起的 request 还是不一样的。我们分别说一下
const https = require('https');//Node 自带的 https.get('https://www.lilnong.top/cors/node-https', (resp) => { let data = ''; resp.on('data', (chunk) => { data += chunk; }); resp.on('end', () => { console.log('resp', JSON.parse(data)); }); }).on("error", (err) => { console.log("Error: " + err.message); });
优点就是原生自带、无依赖。
缺点呢,也很明显了,好多功能都不支持,写法复杂。http 和 https 不共享。
你可以想想成前端的 XMLHTTPRequest
很少有人直接用吧。
是一个第三方库,需要安装。使用简单,大量的人在使用。
request = require('request'); request('https://www.lilnong.top/cors/node-request', {json: true}, function(err, res, body){ if (err) { return console.log(err); } console.log(body); } );
优点来讲就是,封装库,使用方便,支持的东西较多。
缺点来说就是库停止了新功能的开发,不是promise的(request-promise)。
也是一个第三方的库,需要安装。因为这个库可以跨环境使用(前端和 Node 都可以使用),使用起来也是很顺手的。
axios = require('axios'); axios('https://www.lilnong.top/cors/node-axios').then(function(rsp){ console.log(rsp.data); });
优点来讲就是,跨环境,promise。
缺点来讲就是,node中的formdata,https设置代理的时候(axios-https-proxy-fix)
其实库还有很多 https://github.com/request/re...
xhr = new XMLHttpRequest(); xhr.open('get', '//www.lilnong.top/cors/XMLHttpRequest') xhr.send() xhr.responseType='json' xhr.onload = () => console.log(xhr.response)
优点来讲就是原生自带,经过多年更新,基本上功能都有了。
缺点来说就是ie低版本不支持(做ie的不用jquery不是胡扯吗,一般都是$.ajax)
跨平台的库,可以在浏览器环境和 Node 环境使用。
axios('https://www.lilnong.top/cors/axios').then(function(rsp){ console.log(rsp.data); });
优点,跨平台(上面代码拷贝过来就能跑)
缺点,还好吧。我基本上一直在用,没有明显的弱点。
jquery 库中带的方法。也是一款神器,也支持 promise 的方式。
$.ajax({ url: 'https://www.lilnong.top/cors/$.ajax' }).then(function(data){ console.log(data); });
优点:兼容性贼好,支持各种写法。
缺点:时代变了,jquery 不流行了。
你问这是什么?这是青春
浏览器的新规范。使用起来也挺方便,abort 的规范也在制定中。当然现在还干不掉 xhr
。
fetch('https://www.lilnong.top/cors/fetch') .then(v=>v.json()) .then(console.log)
优点:浏览器新加,天生支持 promise
缺点:兼容性,还有挺多的功能需要增加(中止、进度、cookie(已改默认值))
我使用的是 cheerio
,算是 Node 中的 jQuery 吧。
看看这 API,熟悉吧基本上手就能用。
$ = cheerio.load('<h1>lilnong.top</h1>');//解析DOM,一般我们都是把请求回来的响应放进去。 $('h1').text('欢迎关注公众号:前端linong。'); $('h1').addClass('title');
当然,还有还有其他库 JSDOM
、Puppeteer
(当做一个浏览器去使用,单击按钮之类的)。
这部分其实比较坑,比如说你用 jQuery 没获取过script中的变量吧。
其实有个很简单的办法,一般来说你要爬取的数据都不是前端去写的,很多都是模板直接输出的。包括Vue的SSR之类的。
特征很明显,一个变量占据一行。
那么我们就可以直接去比对每一行,如果你要找的那个变量开头,那么我们就截取这一行。
例子后补吧。我忘了谁家是这样的了。
这就很简单了,基本是个库就支持,不支持的也有 JSON.parse
。
不过相比较上两个而言,这个更多的是要分析字段、摸索规则、referer 处理这些东西。
前端来讲一般是简单的一些数据,而且主要用于分析。
当然也是有优势的,比如自动携带 cookie、自动更新 cookie、甚至你可以把他内部封装的 ajax 拿出来使用。
操作一下DOM对于前端来说不是家常便饭吗?jQuery
吃遍天呀。你说就偶尔一下,querySelector
、getElementById
这些都可以满足你。
这个就更简单了,直接获取对象呀。。。没的说吧。
json 的话,也不难呀是吧。