Java教程

爬虫的一些基本协议

本文主要是介绍爬虫的一些基本协议,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

爬虫使用分类

  • 通用爬虫:抓取系统中一整张页面的数据
  • 聚焦爬虫:抓取的是一整张页面中特定的局部内容,如微博页面中的评论数据
  • 增量式爬虫:监测网站中数据更新的情况,只抓取网站中最新更新的数据

Robots.txt协议(君子协议)

  • 规定了网站中哪些数据可以被爬取
  • 在网页后面加上/robots.txt是可以看到这个网页可以被爬取的数据。若是product则是不允许被爬取的

Requests模块

  • Python中原生的基于网络请求的模块。
  • 作用:模拟浏览器发送请求。
  • 使用:
    1、指定URL;
  • UA伪装
  • 请求参数处理
    2、发起请求;
    3、获取响应数据;
    4、持久化存储

解决中文乱码问题

1

url = 'https://pic.netbian.com/4kdongman/'
r = requests.get(url =url,headers=headers)
# 手动设定相应数据的编码格式
# r.encoding = 'utf-8'
page_text = r.text

2

img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
#通用处理中文乱码的解决问题
img_name.encode('iso-8859-1').decode('gbk')
这篇关于爬虫的一些基本协议的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!