Python教程

python爬虫入门实例

本文主要是介绍python爬虫入门实例,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

涉及主要知识点:

  1. web是如何交互的
  2. requests库的get、post函数的应用
  3. response对象的相关函数,属性
  4. python文件的打开,保存
1.第一个爬虫示例,爬取百度页面
import requests #导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("http://www.baidu.com")  #生成一个response对象
response.encoding = response.apparent_encoding #设置编码格式
print("状态码:"+ str( response.status_code ) ) #打印状态码
print(response.text)#输出爬取的信息

   2. 绕过反爬机制,已访问知乎为例

import requests   # 导入爬虫库
response = requests.get("http://www.zhihu.com")   # 访问知乎,不设置头部信息
print("不设置头部信息,状态码:"+str(response.status_code) )    #没写header,不能正常爬取
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"
} # 设置头部信息,伪装成浏览器
response = requests.get("http://www.zhihu.com", headers=headers)  # get 方法访问,传入headers参数
print(response.status_code)  #访问正常,状态码200
print(response.text)

  3. 爬取信息并保存在本地

import requests
url = "http://www.baidu.com"
response = requests.get(url)
response.encoding = 'utf-8'  #设置接收编码格式
print("\n类型是: " + str(type(response)))
print("\n状态码是: " + str(response.status_code))
print("\n头部信息是: " + str(response.headers))
print("\n响应内容是: " + str(response.text))

#保存文件
file = open("baidu.html", 'w+', encoding="utf-8")
file.write(response.text)
file.close()

  4. 保存百度图片到本地

import requests
response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif") #get方法得到图片响应
file = open("baidu_logo.gif", "wb")
file.write(response.content) #写入文件
file.close()

 

 
这篇关于python爬虫入门实例的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!