高性能异步爬虫
目的:在爬虫中使用异步实现高性能的数据爬取操作。
异步爬虫的方式:
多进程、多线程: 优点:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。 缺点:无法无限制的开启多线程或者多进程。
进程池、线程池: 优点:降低系统对进程或者线程创建和销毁的一个频率,从而很好降低系统的开销。 缺点:池中线程或进程的数量是有上限的。
单线程+异步协程:
event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。 coroutine:协程对象,我们可以讲协程对象注册到事件循环中,它会被事件循环调用。可以使用async关键字来定义一个方法,这个方法在调用时不会立即被执行,而是返回一个协程对象。 task:任务。它是对协程对象的进一步封装,包含了任务的各个状态。 future:代表将来执行或还没有执行的任务,实际上和task没有本质区别。 async:定义一个协程。 await:用来挂起阻塞方法的执行。
协程
协程不是计算机提供,程序员人为创造。
协程可以被称为微线程,是一种用户态内的上下文切换技术,简而言之,其实就是通过一个线程实现代码块相互切换执行。例如:
def func1(): print(1) …… print(2) def finc2(): print(3) …… print(4) func1() func2()
greenlet实现协程
from greenlet import greenlet def func1(): print(1) # 第一步:输出 1 gr2.switch() # 第三步:切换到 func2 函数 print(2) # 第六步:输出 2 gr2.switch() # 第七步:切换到func2函数,从上一步执行的位置继续向后执行 def func2(): print(3) gr1.switch() # 第四步:输出 3 print(4) # 第五步:切换到func1 函数,从上一次执行的位置继续向后执行 gr1.switch() # 第八步:输出 4 gr1 = greenlet(func1) gr2 = greenlet(func2) gr1.switch() # 第一步:去执行func1函数
yield关键字
def func1(): yield 1 yield from func2() yield 2 def func2(): yield 3 yield 4 f1 = func1() for item in f1: print(item)
asyncio
python3.4及之后版本
遇到IO阻塞会自动切换
import asyncio @asyncio.coroutine # 原本是个普通函数 加上coroutine可以理解为协程函数 def func1(): print(1) yield from asyncio.sleep(2) # 遇到IO耗时操作,自动化切换到tasks中的其他任务 print(2) @asyncio.coroutine def func2(): print(3) yield from asyncio.sleep(2) # 遇到IO耗时操作,自动化切换到tasks中的其他任务 print(4) tasks = [ asyncio.ensure_future(func1()), asyncio.ensure_future(func2()) ] loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(tasks))# 可以同时执行两个协程函数
async & await关键字
import asyncio async def func1(): print(1) yield from asyncio.sleep(2) # 遇到IO耗时操作,自动化切换到tasks中的其他任务 print(2) async def func2(): print(3) yield from asyncio.sleep(2) # 遇到IO耗时操作,自动化切换到tasks中的其他任务 print(4) tasks = [ asyncio.ensure_future(func1()), asyncio.ensure_future(func2()) ] loop = asyncio.get_event_loop() loop.run_until_complete(asyncio.wait(tasks))# 可以同时执行两个协程函数
普通方式下载图片
import requests def download_image(url): print('开始下载:', url) # 发送网络请求,下载图片 response = requests.get(url) print('下载完成') # 图片保存到本地文件 file_name = url.rsplist('_')[-1] with open(file_name, mode='wb') as file_object: file_object.write(response.content) if __name__ == "__main__": url_list = [ 'https://pic.netbian.com/uploads/allimg/220112/235701-16420030210840.jpg', 'https://pic.netbian.com/uploads/allimg/220112/001807-16419178875bb3.jpg', 'https://pic.netbian.com/uploads/allimg/220111/002539-16418319399169.jpg' ] for item in url_list: download_image(item)
通过协程下载图片
import asyncio import aiohttp import requests async def fetch(session, url): print('发送请求:', url) async with session.get(url, verify_ssl=False) as response: content = await response.content.read() file_name = url.rsplist('_')[-1] with open(file_name, mode='wb') as file_object: file_object.write(content) print('下载完成', url) async def main(): async with aiohttp.ClientSession() as session: url_list = [ 'https://pic.netbian.com/uploads/allimg/220112/235701-16420030210840.jpg', 'https://pic.netbian.com/uploads/allimg/220112/001807-16419178875bb3.jpg', 'https://pic.netbian.com/uploads/allimg/220111/002539-16418319399169.jpg' ] tasks = [asyncio.create_task(fetch(session, url)) for url in url_list] await asyncio.wait(tasks) if __name__ == "__main__": asyncio.run(main())