在了解什么是迭代器和生成器之前,我们先来了解一下容器的概念。对于一切皆对象来说,容器就是对象的集合。例如列表、元祖、字典等等都是容器。对于容器,你可以很直观地想象成多个元素在一起的单元;而不同容器的区别,正是在于内部数据结构的实现方法。然后,你就可以针对不同场景,选择不同时间和空间复杂度的容器。
所有的容器都是可迭代的。而迭代器就是可以用来遍历容器中元素的。迭代器(iterator)提供了一个 next 的方法。调用这个方法后,你要么得到这个容器的下一个对象,要么得到一个 StopIteration 的错误。你不需要像列表一样指定元素的索引,因为字典和集合这样的容器并没有索引一说。
对于可迭代的对象,我们可以通过iter() 函数返回一个迭代器,然后在通过next()函数可以实现遍历。我们来看下面这段代码来理解一下。
s = set([1,2,3,4,5]) it = iter(s) print(it.__next__()) print(it.__next__()) print(it.__next__())
它的输出为1,2,3, 就是一个一个的输出集合中的元素。
那什么是生成器呢?我们知道,在迭代器中,如果我们想要枚举它的元素,这些元素需要事先生成。这里,我们先来看下面这个简单的样例。
# 显示当前 python 程序占用的内存大小 def show_memory(temp): pid = os.getpid() p = psutil.Process(pid) info = p.memory_full_info() memory = info.uss / 1024. / 1024 print('{} memory used: {} MB'.format(temp, memory)) def iterator(): show_memory('initing iterator') list_1 = [i for i in range(10000)] show_memory('after iterator initiated') print(sum(list_1)) show_memory('after sum called') def generator(): show_memory('initing generator') list_2 = (i for i in range(10000)) show_memory('after generator initiated') print(sum(list_2)) show_memory('after sum called') iterator() generator() 输出: initing iterator memory used: 5.58984375 MB after iterator initiated memory used: 6.0234375 MB 49995000 after sum called memory used: 6.0234375 MB initing generator memory used: 6.0234375 MB after generator initiated memory used: 6.0234375 MB 49995000 after sum called memory used: 6.0234375 MB
在 iterator(),通过 [i for i in range(10000)] 就可以生成一个包含一万个元素的列表。每个元素在生成后都会保存到内存中,你通过代码可以看到,它们占用了巨量的内存,内存不够的话就会出现 OOM 错误。不过,我们并不需要在内存中同时保存这么多东西,比如对元素求和,我们只需要知道每个元素在相加的那一刻是多少就行了,用完就可以扔掉了。于是,生成器的概念应运而生,在你调用 next() 函数的时候,才会生成下一个变量。生成器在 Python 的写法是用小括号括起来,(i for i in range(10000)),即初始化了一个生成器。这样一来,你可以清晰地看到,生成器并不会像迭代器一样占用大量内存,只有在被使用的时候才会调用。而且生成器在初始化的时候,并不需要运行一次生成操作,相比于 iterator , generator()函数节省了一次生成一万个元素的过程。因此不需要占用大量内存。
好的,了解了什么是生成器和迭代器之后,我们看下面这么一个例子:
给定一个 list 和一个指定数字,求这个数字在 list 中的位置。下面这段代码你应该不陌生,也就是常规做法,枚举每个元素和它的 index,判断后加入 result,最后返回。
def index(list1, target): result = [] for i, num in enumerate(list1): if num == target: result.append(i) return result print(index([2, 3, 6,7,9,0,2,6], 6)) 输出:[2, 7]
那么使用迭代器可以怎么做呢? 如下所示:
def index(list1, target): for i, num in enumerate(list1): if num == target: yield i print(list(index([2, 3, 6,7,9,0,2,6], 6))) 输出:[2, 7]
上面index函数返回的是一个生成器对象,需要转换成list后再print输出。
下面我们来总结一下:1.容器是可迭代对象,可迭代对象调用 iter() 函数,可以得到一个迭代器。迭代器可以通过 next() 函数来得到下一个元素,从而支持遍历。
生成器是一种特殊的迭代器。使用生成器,你可以写出来更加清晰的代码;合理使用生成器,可以降低内存占用、提高程序速度。
有什么问题,欢迎留言和我讨论。更多硬核内容,请关注公众号。