Java教程

爬虫的一些基本协议

本文主要是介绍爬虫的一些基本协议，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

爬虫使用分类

通用爬虫：抓取系统中一整张页面的数据
聚焦爬虫：抓取的是一整张页面中特定的局部内容，如微博页面中的评论数据
增量式爬虫：监测网站中数据更新的情况，只抓取网站中最新更新的数据

Robots.txt协议（君子协议）

规定了网站中哪些数据可以被爬取
在网页后面加上/robots.txt是可以看到这个网页可以被爬取的数据。若是product则是不允许被爬取的

Requests模块

Python中原生的基于网络请求的模块。
作用：模拟浏览器发送请求。
使用：
1、指定URL；
UA伪装
请求参数处理
2、发起请求；
3、获取响应数据；
4、持久化存储

解决中文乱码问题

1

url = 'https://pic.netbian.com/4kdongman/'
r = requests.get(url =url,headers=headers)
# 手动设定相应数据的编码格式
# r.encoding = 'utf-8'
page_text = r.text

2

img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
#通用处理中文乱码的解决问题
img_name.encode('iso-8859-1').decode('gbk')

这篇关于爬虫的一些基本协议的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

您可能喜欢

栏目导航

前端开发

HTML5教程

CSS教程

Javascript

jQuery教程

AJAX教程

Node.js教程

XML教程

正则表达式

后端开发

Go教程

C/C++教程

消息队列MQ

Net Core教程

Asp.net教程

Java教程

PHP教程

移动端开发

微信公众号开发

小程序开发

Swift教程

IOS教程

Kotlin教程

Android开发

数据库

Redis教程

MongoDB教程

PostgreSQL教程

Oracle教程

MariaDB教程

SqLite教程

MySql教程

SqlServer教程

服务器运维

Kubernetes

Docker容器

linux shell

Nginx教程

网站安全

PowerShell教程

Linux教程

人工智能

TensorFlow教程

Python教程

机器学习

人工智能学习

区块链

区块链技术

游戏开发

游戏编程

Unity3D教程

网站运营

网站策划

网站优化

建站知识

大数据/云计算

云计算

Hadoop教程

软件工程

软件/开发工具使用

Git教程

资讯