一、最近公司有了要爬取微信公众号文章链接的需求,之前最初接触爬公众号文章的时候,用的是搜狗微信,在这个上面可以搜到相关的微信公众号文章,但是这些链接是有时效性的,第二天链接就打不开了(不知道现在是多久),当然如果是要抓文章内容的,可以用这种方法,但是如果要抓文章的URL,那就不行了,只能另寻别的方法。
二、期间我试了网上的各种方法,比如微信公众号发布平台,这个的cookie也是有时效性,具体是多久网上说多久的都有,当然这确实是一种方法,同时我自己也在寻找别的方法。
我的方法是使用fiddler抓包抓到pc端微信的公众号历史文章的URL,然后再浏览器打开,发现打不开,然后我就发现请求头信息里还有一个referer(看下图),抱着试试看的态度,发现可以用本地浏览器打开,而且是有数据的,那就好办了啊,直接用selenium哐哐的爬,目前没有发现啥限制。
三、唯一的是这个历史文章的URL是有时效性的,在两个半小时左右,还有一点需要注意,referer这个URL要去掉__biz=MjM5MzA1NzgyMA==后面的部分,如果不去掉,时效性只有半个小时,亲测,biz这个参数就不多说了吧,大家都知道是啥。虽然历史文章的URL有时效性,但是单个文章的URL是永久有效的啊,这就达到了公司需求,文章的URL也可以去除掉一些没用的后缀,具体你们可以自己去看。
好了,关于微信公众号文章的爬取,今天的分享就到这了。