一,前言
-
进程:是程序,资源集合,进程控制块组成,是最小的资源单位
- 特点:就对Python而言,可以实现真正的并行效果
- 缺点:进程切换很容易消耗cpu资源,进程之间的通信相对线程来说比较麻烦
-
线程:是进程中最小的执行单位。
- 特点无法利用多核,无法实现真正意义上是并行效果。
- 优点:对于IO密集型的操作可以很好利用IO阻塞的时间
二,多进程
2.1 multiprocessing模块介绍
在上一节多线程中讲到,由于GIL的原因,多线程无法利用多核优势,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。Python提供了非常好用的多进程包multiprocessing。multiprocessing模块用来开启子进程,并在子进程中执行我们定制的任务(比如函数),该模块与多线程模块threading的编程接口类似。multiprocessing模块的功能众多:支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。
2.2 process类介绍
类的实例化(创建进程) Process([group [, target [, name [, args [, kwargs]]]]]),由该类实例化得到的对象,表示一个子进程中的任务(尚未启动) 强调: 1. 需要使用关键字的方式来指定参数 2. args指定的为传给target函数的位置参数,是一个元组形式,必须有逗号 参数介绍 group参数未使用,值始终为None target表示调用对象,即子进程要执行的任务 args表示调用对象的位置参数元组,args=(1,2,'hexin',) kwargs表示调用对象的字典,kwargs={'name':'hexin','age':18} name为子进程的名称 # process方法 p.start():启动进程,并调用该子进程中的p.run() p.run():进程启动时运行的方法,正是它去调用target指定的函数,我们自定义类的类中一定要实现该方法 p.terminate():强制终止进程p,不会进行任何清理操作,如果p创建了子进程,该子进程就成了僵尸进程,使用该方法需要特别小心这种情况。如果p还保存了一个锁那么也将不会被释放,进而导致死锁 p.is_alive():如果p仍然运行,返回True p.join([timeout]):主线程等待p终止(强调:是主线程处于等的状态,而p是处于运行的状态)。timeout是可选的超时时间,需要强调的是,p.join只能join住start开启的进程,而不能join住run开启的进程
# process 属性
p.daemon:默认值为False,如果设为True,代表p为后台运行的守护进程,当p的父进程终止时,p也随之终止,并且设定为True后,p不能创建自己的新进程,必须在p.start()之前设置 p.name:进程的名称 p.pid:进程的pid p.exitcode:进程在运行时为None、如果为–N,表示被信号N结束(了解即可) p.authkey:进程的身份验证键,默认是由os.urandom()随机生成的32字符的字符串。这个键的用途是为涉及网络连接的底层进程间通信提供安全性,这类连接只有在具有相同的身份验证键时才能成功(了解即可)
2.3 多进程创建
创建形式一:普通形式
import time import random from multiprocessing import Process def fun(name): print('%s begin' %name) time.sleep(random.randrange(1, 3)) print('%s end' % name) if __name__ == '__main__': p1 = Process(target=fun, args=('w',)) p2 = Process(target=fun,args=('a',)) p3 = Process(target=fun,args=('l',)) p4 = Process(target=fun,args=('l',)) p1.start() p2.start() p3.start() p4.start() print('主线程')
输出结果:
主线程
w begin
a begin
l begin
l begin
a end
l end
w end
l end
创建方式二:继承方式
import time import random from multiprocessing import Process class Sleep(Process): def __init__(self,name): super().__init__() self.name = name def run(self): print('%s sleep begin' % self.name) time.sleep(random.randrange(1,5)) print('%s end' % self.name) if __name__ == '__main__': for i in ['a', 'b', 'c']: Sleep(i).start() print("main")
输出:
main
b sleep begin
a sleep begin
c sleep begin
c end
b end
a end
2.4 进程同步
进程之间数据不共享,但是共享同一套文件系统,所以访问同一个文件,或同一个打印终端,是没有问题的。
共享同一打印终端,发现会有多行内容打印到一行的现象(多个进程共享并抢占同一个打印终端,乱了)
既然可以用文件共享数据,那么进程间通信用文件作为数据传输介质就可以了啊,可以,但是有问题:1.效率 2.需要自己加锁处理
加锁的目的是为了保证多个进程修改同一块数据时,同一时间只能有一个修改,即串行的修改,没错,速度是慢了,牺牲了速度而保证了数据安全。
文件当做数据库,模拟抢票(Lock互斥锁)
#!/usr/bin/env python # -*- coding:utf-8 -*- #文件db的内容为:{"count":2} #注意一定要用双引号,不然json无法识别 from multiprocessing import Process,Lock import json import time import random import os def work(filename,lock): #买票 # lock.acquire() with lock: with open(filename,encoding='utf-8') as f: dic=json.loads(f.read()) # print('剩余票数: %s' % dic['count']) if dic['count'] > 0: dic['count']-=1 time.sleep(random.randint(1,3)) #模拟网络延迟 with open(filename,'w',encoding='utf-8') as f: f.write(json.dumps(dic)) print('%s 购票成功' %os.getpid()) else: print('%s 购票失败' %os.getpid()) # lock.release() if __name__ == '__main__': lock=Lock() p_l=[] for i in range(10): p=Process(target=work,args=('db',lock)) p_l.append(p) p.start() for p in p_l: p.join() print('主线程')
输出:
购票成功
购票成功
购票失败
购票失败
购票失败
购票失败
购票失败
购票失败
购票失败
购票失败
主线程
三,进程间通信
进程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的。
3.1 进程间通信(IPC)方式一:队列(推荐使用)
队列方式一:Queue()
队列先进先出,栈后进先出,创建队列的类(底层就是以管道和锁定的方式实现):
# 实例创建 Queue([maxsize]):创建共享的进程队列,Queue是多进程安全的队列,可以使用Queue实现多进程之间的数据传递。 # 参数说明 maxsize是队列中允许最大项数,省略则无大小限制。 # 属性介绍 q.put方法用以插入数据到队列中 put方法还有两个可选参数:blocked和timeout。 如果blocked为True(默认值),并且timeout为正值,该方法会阻塞timeout指定的时间,直到该队列有剩余的空间。 如果超时,会抛出Queue.Full异常。如果blocked为False,但该Queue已满,会立即抛出Queue.Full异常。 q.get方法可以从队列读取并且删除一个元素。 get方法有两个可选参数:blocked和timeout。 如果blocked为True(默认值),并且timeout为正值,那么在等待时间内没有取到任何元素,会抛出Queue.Empty异常。 如果blocked为False,有两种情况存在,如果Queue有一个值可用,则立即返回该值,否则,如果队列为空,则立即抛出Queue.Empty异常. q.get_nowait():同q.get(False) q.put_nowait():同q.put(False) q.empty():调用此方法时q为空则返回True,该结果不可靠,比如在返回True的过程中,如果队列中又加入了项目。 q.full():调用此方法时q已满则返回True,该结果不可靠,比如在返回True的过程中,如果队列中的项目被取走。 q.qsize():返回队列中目前项目的正确数量,结果也不可靠,理由同q.empty()和q.full()一样
实例:基于队列实现生产者和消费者模型
from multiprocessing import Process,Queue import time,random,os def consumer(q): while True: time.sleep(random.randint(1,3)) res=q.get() if res is None:break print('