python爬虫入门实例

本文主要是介绍python爬虫入门实例，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

涉及主要知识点:

web是如何交互的
requests库的get、post函数的应用
response对象的相关函数，属性
python文件的打开，保存

1.第一个爬虫示例,爬取百度页面

import requests #导入爬虫的库，不然调用不了爬虫的函数
response = requests.get("http://www.baidu.com")  #生成一个response对象
response.encoding = response.apparent_encoding #设置编码格式
print("状态码:"+ str( response.status_code ) ) #打印状态码
print(response.text)#输出爬取的信息

2. 绕过反爬机制，已访问知乎为例

import requests   # 导入爬虫库
response = requests.get("http://www.zhihu.com")   # 访问知乎，不设置头部信息
print("不设置头部信息，状态码："+str(response.status_code) )    #没写header，不能正常爬取
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"
} # 设置头部信息，伪装成浏览器
response = requests.get("http://www.zhihu.com", headers=headers)  # get 方法访问，传入headers参数
print(response.status_code)  #访问正常，状态码200
print(response.text)

3. 爬取信息并保存在本地

import requests
url = "http://www.baidu.com"
response = requests.get(url)
response.encoding = 'utf-8'  #设置接收编码格式
print("\n类型是: " + str(type(response)))
print("\n状态码是: " + str(response.status_code))
print("\n头部信息是: " + str(response.headers))
print("\n响应内容是: " + str(response.text))

#保存文件
file = open("baidu.html", 'w+', encoding="utf-8")
file.write(response.text)
file.close()

4. 保存百度图片到本地

import requests
response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif") #get方法得到图片响应
file = open("baidu_logo.gif", "wb")
file.write(response.content) #写入文件
file.close()

这篇关于python爬虫入门实例的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python教程

python爬虫入门实例

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯