涉及主要知识点:
1.第一个爬虫示例,爬取百度页面
import requests #导入爬虫的库,不然调用不了爬虫的函数 response = requests.get("http://www.baidu.com") #生成一个response对象 response.encoding = response.apparent_encoding #设置编码格式 print("状态码:"+ str( response.status_code ) ) #打印状态码 print(response.text)#输出爬取的信息
2. 绕过反爬机制,已访问知乎为例
import requests # 导入爬虫库 response = requests.get("http://www.zhihu.com") # 访问知乎,不设置头部信息 print("不设置头部信息,状态码:"+str(response.status_code) ) #没写header,不能正常爬取 headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36" } # 设置头部信息,伪装成浏览器 response = requests.get("http://www.zhihu.com", headers=headers) # get 方法访问,传入headers参数 print(response.status_code) #访问正常,状态码200 print(response.text)
3. 爬取信息并保存在本地
import requests url = "http://www.baidu.com" response = requests.get(url) response.encoding = 'utf-8' #设置接收编码格式 print("\n类型是: " + str(type(response))) print("\n状态码是: " + str(response.status_code)) print("\n头部信息是: " + str(response.headers)) print("\n响应内容是: " + str(response.text)) #保存文件 file = open("baidu.html", 'w+', encoding="utf-8") file.write(response.text) file.close()
4. 保存百度图片到本地
import requests response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif") #get方法得到图片响应 file = open("baidu_logo.gif", "wb") file.write(response.content) #写入文件 file.close()