Python 数据采集的介绍

本文主要是介绍Python 数据采集的介绍，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

Python 数据采集的介绍

1.爬虫是什么

概念：通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

2.爬虫的合法性

2.1 风险

爬虫干扰了被访问网站的正常运营
抓取了受到法律保护的特定类型的数据信息

2.2 使用

优化程序，避免干扰被访问网站的正常运行。
使用，或传播抓取到的数据时，审查抓取内容中是否存在商业机密或个人隐私等内容，应该及时停止采集。

3.介绍

3.1 分类

概述：按照使用场景进行分类

通用爬虫
- 抓取系统重要组成部分。抓取的是一整张页面数据。
聚焦爬虫
- 是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
增量式爬虫
- 检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

3.2 反爬机制

反爬机制
- 门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。
反反爬策略
- 爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

3.3 robots.txt 协议

君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

查看网站的协议，直接在相关网站后添加/robots.txt

4.Http与Https

4.1 http与https 协议

概念：就是服务器和客户端进行数据交互的一种形式。

常用请求头信息：

User-Agent：请求载体的身份标识

Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息:

Content-Type：服务器响应回客户端的数据类型

https协议：

- 安全的超文本传输协议

加密方式:

对称秘钥加密
非对称秘钥加密
证书秘钥加密

继续努力，终成大器！

这篇关于Python 数据采集的介绍的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python教程

Python 数据采集的介绍

Python 数据采集的介绍

1.爬虫是什么

2.爬虫的合法性

2.1 风险

2.2 使用

3.介绍

3.1 分类

3.2 反爬机制

3.3 robots.txt 协议

4.Http与Https

4.1 http与https 协议

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯