zoukankan      html  css  js  c++  java
  • 『Python』列表生成式、生成器与迭代器

    1. 迭代

    Python中, 迭代是通过 for ... in 来完成的, 而很多语言比如 C 语言, 迭代 list 是通过下标完成的。 Pythonfor 循环抽象程度要高于 Cfor 循环, 因为 Pythonfor循环不仅可以用在 listtuple上, 还可以作用在其他可迭代对象(Iterable的实例)上。

    d = {1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e', 6: 'f'}
    for x in d:
    print(x)  # 1 2 3 4 5 6
    	
    for y in d.values():
        print(y)  # a b c d e f
    	
    for k, v in d.items():
        print(f"{k}={v}")  # 1=a 2=b 3=c 4=d 5=e 6=f
    

    Python中, 迭代是通只要是可迭代的对象, 都可以用于迭代, 如何判断一个对象是不是可迭代对象可以用内置函数isinstance()判断:

    isinstance(obj, Iterable)

    2. 列表生成式

    举个简单例子, 要生成[1,2,3,4,5,6,7,8,9]很简单, list(range(1,10))就行了, 但要是想生产[1,4,9,16,25,36,49,64,81]就不太容易, 这时就需要列表生成式了

    [x * x for x in range(1,10)]  # [1, 4, 9, 16, 25, 36, 49, 64, 81]
    

    再进一步, 还可以用if语句进行过滤:

    [x * x for x in range(1,10) if x % 2 == 0]  # [4, 16, 36, 64]
    

    <font size=4还可以使用两层循环, 可以生成全排列:

    [m + n for m in "ABC" for n in "123"]  # ['A1', 'A2', 'A3', 'B1', 'B2', 'B3', 'C1', 'C2', 'C3']
    

    同样地,这里也可以过滤条件:

    [m + n for m in "ABC" for n in "123" if m == "B" and n != "2"]  # ['B1', 'B3']
    [m + n for m in "ABC" if m == "B"  for n in "123" if n != "2"]  # ['B1', 'B3']
    

    3. 生成器

    通过列表生成式, 我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含 100 万个元素的列表,不仅占用很大的存储空间, 如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。
    所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器:generator
    第一种方法很简单,只要把一个列表生成式的[ ]改成( ),就创建了一个generator:

    (x for x in range(10))  # <generator object <genexpr> at 0x0000021B2B266308>
    

    我们可以直接打印出list的每一个元素,但我们怎么打印出generator的每一个元素呢?如果要一个一个打印出来,可以通过next()函数获得generator的下一个返回值:

    g = (x * x for x in range(5))
    print(next(g))  # 0
    print(next(g))  # 1
    print(next(g))  # 4
    print(next(g))  # 9
    print(next(g))  # 16
    print(next(g))  # StopIteration
    

    我们讲过,generator保存的是算法,每次调用next(g),就计算出g的下一个元素的值,直到计算到最后一个元素,没有更多的元素时,抛出StopIteration的错误。
    当然,上面这种不断调用next(g)实在是太变态了,正确的方法是使用for循环,因为generator也是可迭代对象:

    g = (x * x for x in range(5))
    for n in g:
        print(n)  # 0 1 2 4 9 16
    

    所以,我们创建了一个generator后,基本上永远不会调用next(),而是通过for循环来迭代它,并且不需要关心StopIteration的错误。
    第二种方法类似于函数,只要在函数中出现yield关键字,那么此时该函数就不是一个普通函数,而是一个generator

    # ============================
    #       求斐波那契数列
    # ============================
    def fib(max):
        n, a, b = 0, 0, 1
        while n < max:
            yield b
            a, b = b, a + b
            n += 1
        return "done"
    
    f = fib(6)
    print(f)  # <generator object fib at 0x0000025036F46678>
    

    这里,最难理解的就是generator和函数的执行流程不一样。函数是顺序执行,遇到return语句或者最后一行函数语句就返回。而变成generator的函数,在每次调用next()的时候执行,遇到yield语句返回,再次执行时从上次返回的yield语句处继续执行。
    举个简单的例子,定义一个generator,依次返回数字1,3,5:

    def odd():
        print('step 1')
        yield 1
        print('step 2')
        yield 3
        print('step 3')
        yield 5
    

    调用该generator时,首先要生成一个generator对象,然后用next()函数不断获得下一个返回值:

    o = odd()
    print(next(o))  # step1  1
    print(next(o))  # step2  3
    print(next(o))  # step3  5
    print(next(o))  # StopIteration
    

    可以看到,odd不是普通函数,而是generator,在执行过程中,遇到yield就中断,下次又继续执行。执行3次yield后,已经没有yield可以执行了,所以,第4次调用next(o)就会报错。
    回到fib的例子,我们在循环过程中不断调用yield,就会不断中断。当然要给循环设置一个条件来退出循环,不然就会产生一个无限数列出来。
    同样的,把函数改成generator后,我们基本上从来不会用next()来获取下一个返回值,而是直接使用for循环来迭代:

    for n in fib(6):
        print(n, end=' ')
        # 1 1 2 3 5 8
    

    但是用for循环调用generator时,发现拿不到generatorreturn语句的返回值。如果想要拿到返回值,必须捕获StopIteration错误,返回值包含在StopIterationvalue中:

    g = fib(6)
    while True:
        try:
            x = next(g)
            print('g:', x)
        except StopIteration as e:
            print('Generator return value:', e.value)  # Generator return value: done
            break
    # ================================================
    #	 g: 1
    #	 g: 1
    # 	 g: 2
    #	 g: 3
    # 	 g: 5
    # 	 g: 8
    # 	 Generator
    # 	 return value: done
    # ================================================
    
    
    

    生成器还有一个send()函数:generator.send(obj),其功能是给yield表达式赋值,而且next(g)就等价于g.send(None)

    def fun():
        print('start...')
        m = yield 5  # m的值就是yield表达式
        print(m)
        print('middle...')
        d = yield 12
        print(d)
        print('end...')
    
    
    m = fun()  # 没有输出,因为fun现在是生成器了
    out = next(m)  # start...
    print(out)  # 5
    out = m.send('message')  # message middle...
    print(out)  # 12
    out = next(m)  # None end... StopIteration
    
    

    可以发现,每次迭代都是到yield表达式为止,此时yield就相当于一个阶段性的“return”,每次迭代的返回值就是yield后的值。但是,如果出现类似m = yield n这种语句,下次迭代开始是从这句后面开始的,m是不会接着上次的yield n得到值的,如果后面要用到m的值,就需要用send()函数了,send()函数和next()一样,也可以唤起一次迭代,但是send()可以给m传值,如在第二次迭代时,m.send('message'),这样m的值就有了,为message
    第一次迭代必须是next(g)或者g.send(None)!

    4. 迭代器

    我们已经知道,可以直接作用于for循环的数据类型有以下几种:
      一类是集合数据类型,如listtupledictsetstr等;
      一类是generator,包括生成器带yield的generator function

    这些可以直接作用于for循环的对象统称为可迭代对象:Iterable,可以使用isinstance()判断一个对象是否是Iterable对象。而生成器不但可以作用于for循环,还可以被next()函数不断调用并返回下一个值,直到最后抛出StopIteration错误表示无法继续返回下一个值了。
    同样地,可以被next()函数调用并不断返回下一个值的对象称为迭代器:Iterator,可以使用isinstance()判断一个对象是否是Iterator对象。
    生成器都是Iterator对象,但listdictstr虽然是Iterable,却不是Iterator
    listdictstrIterable变成Iterator可以使用iter()函数:

    from collections.abc import Iterator
    
    isinstance(iter([]), Iterator)				# True
    sinstance(iter('abc'), Iterator)			# True
    

    你可能会问,为什么listdictstr等数据类型不是Iterator
    这是因为Python的Iterator对象表示的是一个数据流,Iterator对象可以被next()函数调用并不断返回下一个数据,直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列,但我们却不能提前知道序列的长度,只能不断通过next()函数实现按需计算下一个数据,所以Iterator的计算是惰性的,只有在需要返回下一个数据时它才会计算
    Iterator甚至可以表示一个无限大的数据流,例如全体自然数。而使用list是永远不可能存储全体自然数的。

  • 相关阅读:
    java — 排序算法
    sping框架(3)— 使用spring容器
    java — 线程池
    一致性哈希算法(consistent hashing)
    linux进程调度
    滑动窗口协议
    final和static关键字
    II 3.1 连接到服务器
    intel-hadoop/HiBench流程分析----以贝叶斯算法为例
    Android开发学习之路--基于vitamio的视频播放器(二)
  • 原文地址:https://www.cnblogs.com/ice-coder/p/12809547.html
Copyright © 2011-2022 走看看