本文主要是介绍爬虫的一些基本协议,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
爬虫使用分类
- 通用爬虫:抓取系统中一整张页面的数据
- 聚焦爬虫:抓取的是一整张页面中特定的局部内容,如微博页面中的评论数据
- 增量式爬虫:监测网站中数据更新的情况,只抓取网站中最新更新的数据
Robots.txt协议(君子协议)
- 规定了网站中哪些数据可以被爬取
- 在网页后面加上/robots.txt是可以看到这个网页可以被爬取的数据。若是product则是不允许被爬取的
Requests模块
- Python中原生的基于网络请求的模块。
- 作用:模拟浏览器发送请求。
- 使用:
1、指定URL; - UA伪装
- 请求参数处理
2、发起请求;
3、获取响应数据;
4、持久化存储
解决中文乱码问题
1
url = 'https://pic.netbian.com/4kdongman/'
r = requests.get(url =url,headers=headers)
# 手动设定相应数据的编码格式
# r.encoding = 'utf-8'
page_text = r.text
2
img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
#通用处理中文乱码的解决问题
img_name.encode('iso-8859-1').decode('gbk')
这篇关于爬虫的一些基本协议的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!