简介
- 操作系统线程理论
- 线程概念的引入背景
- 线程的特点
- 进程和线程的关系
- 使用线程的实际场景
- 用户级线程和内核级线程(了解)
- 线程和python
- 理论知识
- 线程的创建Threading.Thread类
- 锁
- 信号量
- 事件
- 条件
- 定时器
- 队列
- Python标准模块--concurrent.futures
操作系统线程理论
线程概念的引入背景
进程
之前我们已经了解了操作系统中进程的概念,程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别就在于:程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次执行活动,属于动态概念。在多道编程中,我们允许多个程序同时加载到内存中,在操作系统的调度下,可以实现并发地执行。正是这样的设计,大大提高了CPU的利用率。进程的出现让每个用户感觉到自己独享CPU,因此,进程就是为了在CPU上实现多道编程而提出的。
进程这么牛逼,为什么还要有线程?
进程有很多优点,它提供了多道编程,让我们感觉我们每个人都拥有自己的CPU和其他资源,可以提高计算机的利用率。很多人就不理解了,既然进程这么优秀,为什么还要线程呢?其实,仔细观察就会发现进程还是有很多缺陷的,主要体现在两点上:
1 进程只能在一个时间干一件事,如果想同时干两件事或多件事,进程就无能为力了。
2 进程在执行的过程中如果阻塞,例如等待输入,整个进程就会挂起,即使进程中有些工作不依赖于输入的数据,也将无法执行。
如果这两个缺点理解比较困难的话,举个现实的例子也许你就清楚了:如果把我们上课的过程看成一个进程的话,那么我们要做的是耳朵听老师讲课,手上还要记笔记,脑子还要思考问题,这样才能高效的完成听课的任务。而如果只提供进程这个机制的话,上面这三件事将不能同时执行,同一时间只能做一件事,听的时候就不能记笔记,也不能用脑子思考,这是其一;如果老师在黑板上写演算过程,我们开始记笔记,而老师突然有一步推不下去了,阻塞住了,他在那边思考着,而我们呢,也不能干其他事,即使你想趁此时思考一下刚才没听懂的一个问题都不行,这是其二。
现在你应该明白了进程的缺陷了,而解决的办法很简单,我们完全可以让听、写、思三个独立的过程,并行起来,这样很明显可以提高听课的效率。而实际的操作系统中,也同样引入了这种类似的机制——线程。
线程的出现
进程和线程的关系
线程的特点

TCB包括以下信息: (1)线程状态。 (2)当线程不运行时,被保存的现场资源。 (3)一组执行堆栈。 (4)存放每个线程的局部变量主存区。 (5)访问同一个进程中的主存和其它资源。 用于指示被执行指令序列的程序计数器、保留局部变量、少数状态参数和返回地址等的一组寄存器和堆栈。
使用线程的实际场景
开启一个字处理软件进程,该进程肯定需要办不止一件事情,比如监听键盘输入,处理文字,定时自动将文字保存到硬盘,这三个任务操作的都是同一块数据,因而不能用多进程。只能在一个进程里并发地开启三个线程,如果是单线程,那就只能是,键盘输入时,不能处理文字和自动保存,自动保存时又不能输入和处理文字。
内存中的线程
多个线程共享同一个进程的地址空间中的资源,是对一台计算机上多个进程的模拟,有时也称线程为轻量级的进程。
而对一台计算机上多个进程,则共享物理内存、磁盘、打印机等其他物理资源。多线程的运行也和多进程的运行类似,是cpu在多个线程之间的快速切换。
不同的进程之间是充满敌意的,彼此是抢占、竞争cpu的关系,如果迅雷会和QQ抢资源。而同一个进程是由一个程序员的程序创建,所以同一进程内的线程是合作关系,一个线程可以访问另外一个线程的内存地址,大家都是共享的,一个线程干死了另外一个线程的内存,那纯属程序员脑子有问题。
类似于进程,每个线程也有自己的堆栈,不同于进程,线程库无法利用时钟中断强制线程让出CPU,可以调用thread_yield运行线程自动放弃cpu,让另外一个线程运行。
线程通常是有益的,但是带来了不小程序设计难度,线程的问题是:
1. 父进程有多个线程,那么开启的子线程是否需要同样多的线程
2. 在同一个进程中,如果一个线程关闭了文件,而另外一个线程正准备往该文件内写内容呢?
因此,在多线程的代码中,需要更多的心思来设计程序的逻辑、保护程序的数据。
用户级线程和内核级线程(了解)
线程的实现可以分为两类:用户级线程(User-Level Thread)和内核线线程(Kernel-Level Thread),后者又称为内核支持的线程或轻量级进程。在多线程操作系统中,各个系统的实现方式并不相同,在有的系统中实现了用户级线程,有的系统中实现了内核级线程。
用户级线程
内核的切换由用户态程序自己控制内核切换,不需要内核干涉,少了进出内核态的消耗,但不能很好的利用多核Cpu。
在用户空间模拟操作系统对进程的调度,来调用一个进程中的线程,每个进程中都会有一个运行时系统,用来调度线程。此时当该进程获取cpu时,进程内再调度出一个线程去执行,同一时刻只有一个线程执行。
内核级线程
内核级线程:切换由内核控制,当线程进行切换的时候,由用户态转化为内核态。切换完毕要从内核态返回用户态;可以很好的利用smp,即利用多核cpu。windows线程就是这样的。
用户级与内核级线程的对比

1 内核支持线程是OS内核可感知的,而用户级线程是OS内核不可感知的。 2 用户级线程的创建、撤消和调度不需要OS内核的支持,是在语言(如Java)这一级处理的;而内核支持线程的创建、撤消和调度都需OS内核提供支持,而且与进程的创建、撤消和调度大体是相同的。 3 用户级线程执行系统调用指令时将导致其所属进程被中断,而内核支持线程执行系统调用指令时,只导致该线程被中断。 4 在只有用户级线程的系统内,CPU调度还是以进程为单位,处于运行状态的进程中的多个线程,由用户程序控制线程的轮换运行;在有内核支持线程的系统内,CPU调度则以线程为单位,由OS的线程调度程序负责线程的调度。 5 用户级线程的程序实体是运行在用户态下的程序,而内核支持线程的程序实体则是可以运行在任何状态下的程序。 用户级线程和内核级线程的区别

优点:当有多个处理机时,一个进程的多个线程可以同时执行。
缺点:由内核进行调度。

优点:
线程的调度不需要内核直接参与,控制简单。
可以在不支持线程的操作系统中实现。
创建和销毁线程、线程切换代价等线程管理的代价比内核线程少得多。
允许每个进程定制自己的调度算法,线程管理比较灵活。
线程能够利用的表空间和堆栈空间比内核级线程多。
同一进程中只能同时有一个线程在运行,如果有一个线程使用了系统调用而阻塞,那么整个进程都会被挂起。另外,页面失效也会产生同样的问题。
缺点:
资源调度按照进程进行,多个处理机下,同一个进程中的线程只能在同一个处理机下分时复用
混合实现
用户级与内核级的多路复用,内核同一调度内核线程,每个内核线程对应n个用户线程
linux操作系统的 NPTL

历史 在内核2.6以前的调度实体都是进程,内核并没有真正支持线程。它是能过一个系统调用clone()来实现的,这个调用创建了一份调用进程的拷贝,跟fork()不同的是,这份进程拷贝完全共享了调用进程的地址空间。LinuxThread就是通过这个系统调用来提供线程在内核级的支持的(许多以前的线程实现都完全是在用户态,内核根本不知道线程的存在)。非常不幸的是,这种方法有相当多的地方没有遵循POSIX标准,特别是在信号处理,调度,进程间通信原语等方面。 很显然,为了改进LinuxThread必须得到内核的支持,并且需要重写线程库。为了实现这个需求,开始有两个相互竞争的项目:IBM启动的NGTP(Next Generation POSIX Threads)项目,以及Redhat公司的NPTL。在2003年的年中,IBM放弃了NGTP,也就是大约那时,Redhat发布了最初的NPTL。 NPTL最开始在redhat linux 9里发布,现在从RHEL3起内核2.6起都支持NPTL,并且完全成了GNU C库的一部分。 设计 NPTL使用了跟LinuxThread相同的办法,在内核里面线程仍然被当作是一个进程,并且仍然使用了clone()系统调用(在NPTL库里调用)。但是,NPTL需要内核级的特殊支持来实现,比如需要挂起然后再唤醒线程的线程同步原语futex. NPTL也是一个1*1的线程库,就是说,当你使用pthread_create()调用创建一个线程后,在内核里就相应创建了一个调度实体,在linux里就是一个新进程,这个方法最大可能的简化了线程的实现。 除NPTL的1*1模型外还有一个m*n模型,通常这种模型的用户线程数会比内核的调度实体多。在这种实现里,线程库本身必须去处理可能存在的调度,这样在线程库内部的上下文切换通常都会相当的快,因为它避免了系统调用转到内核态。然而这种模型增加了线程实现的复杂性,并可能出现诸如优先级反转的问题,此外,用户态的调度如何跟内核态的调度进行协调也是很难让人满意。 介绍
python和线程
理论知识
全局解释器锁GIL
Python代码的执行由Python虚拟机(也叫解释器主循环)来控制。Python在设计之初就考虑到要在主循环中,同时只有一个线程在执行。虽然 Python 解释器中可以“运行”多个线程,但在任意时刻只有一个线程在解释器中运行。
对Python虚拟机的访问由全局解释器锁(GIL)来控制,正是这个锁能保证同一时刻只有一个线程在运行。
在多线程环境中,Python 虚拟机按以下方式执行:
a、设置 GIL;
b、切换到一个线程去运行;
c、运行指定数量的字节码指令或者线程主动让出控制(可以调用 time.sleep(0));
d、把线程设置为睡眠状态;
e、解锁 GIL;
d、再次重复以上所有步骤。
在调用外部代码(如 C/C++扩展函数)的时候,GIL将会被锁定,直到这个函数结束为止(由于在这期间没有Python的字节码被运行,所以不会做线程切换)编写扩展的程序员可以主动解锁GIL。
python线程模块的选择
Python提供了几个用于多线程编程的模块,包括thread、threading和Queue等。thread和threading模块允许程序员创建和管理线程。thread模块提供了基本的线程和锁的支持,threading提供了更高级别、功能更强的线程管理的功能。Queue模块允许用户创建一个可以用于多个线程之间共享数据的队列数据结构。
避免使用thread模块,因为更高级别的threading模块更为先进,对线程的支持更为完善,而且使用thread模块里的属性有可能会与threading出现冲突;其次低级别的thread模块的同步原语很少(实际上只有一个),而threading模块则有很多;再者,thread模块中当主线程结束时,所有的线程都会被强制结束掉,没有警告也不会有正常的清除工作,至少threading模块能确保重要的子线程退出后进程才退出。
thread模块不支持守护线程,当主线程退出时,所有的子线程不论它们是否还在工作,都会被强行退出。而threading模块支持守护线程,守护线程一般是一个等待客户请求的服务器,如果没有客户提出请求它就在那等着,如果设定一个线程为守护线程,就表示这个线程是不重要的,在进程退出的时候,不用等待这个线程退出。
threading模块
multiprocess模块的完全模仿了threading模块的接口,二者在使用层面,有很大的相似性,因而不再详细介绍(官方链接)
需注意,玩多线程编程时,可以不用再像写多进程一样,每个py文件中必须加上if __name__ == '__main__'这一行代码了
线程的创建Threading.Thread类
线程的创建

from threading import Thread import time def func(): print('你瞅啥') if __name__ == '__main__': t = Thread(target=func) t.start() time.sleep(1) print('瞅你咋地')

from threading import Thread import time class MyThread(Thread): def __init__(self): super(MyThread, self).__init__() def run(self): time.sleep(1) print('就是这么diao') t = MyThread() t.start()
多线程与多进程

from threading import Thread from multiprocessing import Process import os import time def son(n): print('%s中,我是儿子,我的pid号是: %s'%(n,os.getpid())) if __name__ == '__main__': t = Thread(target=son,args=('线程',)) t.start() print('线程中,我是爸爸,我的pid号是:%s'%os.getpid()) time.sleep(2) p = Process(target=son,args=('进程',)) p.start() print('进程中,我是爸爸,我的pid号是:%s' % os.getpid())

from threading import Thread from multiprocessing import Process import os import time def son(n): pass if __name__ == '__main__': start = time.time() for i in range(100): t = Thread(target=son,args=('线程',)) t.start() print(time.time() - start) for i in range(100): p = Process(target=son,args=('进程',)) p.start() print(time.time() - start)

from threading import Thread import time def func(): global num num -= 1 time.sleep(2) if __name__ == '__main__': num = 100 t = Thread(target=func,) t.start() t.join() print(num)# 很明显,多线程是共享一个进程内部的全局变量的 # 进程就不开启了,已经学习过进程了,多进程就是不能共享数据

from threading import Thread import socket sk = socket.socket() sk.bind(('127.0.0.1',8080)) sk.listen() def func(conn): while 1: info = conn.recv(1024).decode('utf-8') print(info) conn.send(info.upper().encode('utf-8')) if __name__ == '__main__': while 1: conn,addr = sk.accept() Thread(target=func,args=(conn,)).start()

import socket sk = socket.socket() sk.connect(('127.0.0.1',8080)) while 1: msg_s = input('>>>') sk.send(msg_s.encode('utf-8')) print(sk.recv(1024).decode('utf-8'))
Thread类的其他方法

Thread实例对象的方法 # isAlive(): 返回线程是否活动的。 # getName(): 返回线程名。 # setName(): 设置线程名。 threading模块提供的一些方法: # threading.currentThread(): 返回当前的线程对象。 # threading.current_thread():返回当前的线程对象,和上述方法一样。 # threading.enumerate(): 返回一个包含正在运行的线程的list。正在运行指线程启动后、结束前,不包括启动前和终止后的线程。 # threading.activeCount(): 返回正在运行的线程数量,与len(threading.enumerate())有相同的结果。 # threading.active_count():返回正在运行的线程数量,和上述方法一样。

from threading import Thread import threading import time def func(): time.sleep(2) if __name__ == '__main__': for i in range(20): t = Thread(target=func) t.start() # print(t.getName()) # t.setName('alex') # print(t.getName()) # print(t.isAlive()) print(threading.currentThread()) print(threading.current_thread()) print(threading.enumerate()) print(threading.activeCount()) print(threading.active_count())

from threading import Thread import threading import time def func(): time.sleep(2) if __name__ == '__main__': for i in range(20): t = Thread(target=func) t.start() t.join()#让主线程停留在这一行,等待子线程结束
守护线程
无论是进程还是线程,都遵循:守护xx会等待主xx运行完毕后被销毁。需要强调的是:运行完毕并非终止运行
#1.对主进程来说,运行完毕指的是主进程代码运行完毕 #2.对主线程来说,运行完毕指的是主线程所在的进程内所有非守护线程统统运行完毕,主线程才算运行完毕

#1 主进程在其代码结束后就已经算运行完毕了(守护进程在此时就被回收),然后主进程会一直等非守护的子进程都运行完毕后回收子进程的资源(否则会产生僵尸进程),才会结束, #2 主线程在其他非守护线程运行完毕后才算运行完毕(守护线程在此时就被回收)。因为主线程的结束意味着进程的结束,进程整体的资源都将被回收,而进程必须保证非守护线程都运行完毕后才能结束。

from threading import Thread import time def func(): time.sleep(2) if __name__ == '__main__': t = Thread(target=func) t.setDaemon(True) t.start() print('主线程,守护线程是否还存活?',t.is_alive())

from threading import Thread import time def func(): time.sleep(2) print('这里是子线程,就是守护线程,就是这么diao,还活着呢!') def func1(): time.sleep(4) print('这里是子线程,并不是守护线程') if __name__ == '__main__': t = Thread(target=func) t1 = Thread(target=func1) t.setDaemon(True) t.start() t1.start() print('这里是父线程')
锁
锁与GIL
同步锁

from threading import Thread import time def func(): global n tmp = n time.sleep(0.1) n = tmp - 1 t_l = [] n = 100 for i in range(100): t = Thread(target=func) t.start() t_l.append(t) [t.join() for t in t_l] print(n)# 结果极有可能是99
import threading R=threading.Lock() R.acquire() ''' 对公共数据的操作 ''' R.release()

from threading import Thread,Lock import time # 注意,同步锁又叫做互斥锁 def func(): global n l.acquire() tmp = n time.sleep(0.1) n = tmp - 1 l.release() t_l = [] n = 100 l = Lock() for i in range(100): t = Thread(target=func) t.start() t_l.append(t) [t.join() for t in t_l] print(n)# 结果肯定是0,之前的代码没加锁,100个线程是异步执行。此时加了锁,100个线程想要操作变量n,必须同步的去操作

大家有没有发现刚才代码,既然我用了加锁的方式,让子线程变成了串行操作。那么肯定有人就有疑问了,那么我在for循环中干脆直接让子线程join住不就行了,也是让子线程变成了串行执行。
我告诉你,你的这个思想很有深度,确实,你这种方式确实也可以保证数据的安全性。
但是,记不记得我之前说过,加锁就尽可能的小范围加锁,这样就会使子线程中有一部分代码是并行的,有一部分代码是串行的。而如果使用join的话,就会让子线程整个代码都是串行,毫无疑问,虽然使用join也能让子线程变成串行并且能保护数据安全性,但是相对加锁来说,效率又变低下了很多。
小伙伴感兴趣的可以去试试效率。
死锁与递归锁
进程也有死锁与递归锁,在进程那里忘记说了,放到这里一切说了额
所谓死锁: 是指两个或两个以上的进程或线程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程,如下就是最简单的死锁

from threading import Lock as Lock import time mutexA=Lock() mutexA.acquire() mutexA.acquire() print(123) mutexA.release() mutexA.release()
解决方法,递归锁,在Python中为了支持在同一线程中多次请求同一资源,python提供了可重入锁RLock。
这个RLock内部维护着一个Lock和一个counter变量,counter记录了acquire的次数,从而使得资源可以被多次acquire。直到一个线程所有的acquire都被release,其他的线程才能获得资源。上面的例子如果使用RLock代替Lock,则不会发生死锁:

from threading import RLock as Lock import time mutexA=Lock() mutexA.acquire() mutexA.acquire() print(123) mutexA.release() mutexA.release() 递归锁RLock
死锁问题:两个人(两个进程),都想上厕所,但是男的先抢到了厕所资源,男的进入厕所后发现没带纸。此时女的在厕所外边没获得厕所资源,但是她有纸资源。互相都想获取互相的资源,造成死锁

from threading import Thread,Lock import time def Man(): l_tot.acquire() print('男同志以百米冲刺的速度,抢到了厕所资源!') time.sleep(1) l_wsz.acquire() print('男同志以秋风扫落叶般的气势获得了卫生纸资源。') time.sleep(1) print('男同志可以安心的解决自己的事情了') l_wsz.release() l_tot.release() def Women(): l_wsz.acquire() print('女同志以秋风扫落叶般的气势获得了卫生纸资源。') time.sleep(1) l_tot.acquire() print('女同志以百米冲刺的速度,抢到了厕所资源!') time.sleep(1) print('女同志可以安心的解决自己的事情了') l_tot.release() l_wsz.release() if __name__ == '__main__': l_tot = Lock() l_wsz = Lock() man_t = Thread(target=Man) man_t.start() woman_t = Thread(target=Women) woman_t.start()

from threading import Thread,RLock import time def Man(): l_tot.acquire() print('男同志以百米冲刺的速度,抢到了厕所资源!') time.sleep(1) l_wsz.acquire() print('男同志以秋风扫落叶般的气势获得了卫生纸资源。') time.sleep(1) print('男同志可以安心的解决自己的事情了') l_wsz.release() l_tot.release() def Women(): l_wsz.acquire() print('女同志以秋风扫落叶般的气势获得了卫生纸资源。') time.sleep(1) l_tot.acquire() print('女同志以百米冲刺的速度,抢到了厕所资源!') time.sleep(1) print('女同志可以安心的解决自己的事情了') l_tot.release() l_wsz.release() if __name__ == '__main__': l_tot =l_wsz = RLock() man_t = Thread(target=Man) man_t.start() woman_t = Thread(target=Women) woman_t.start()
信号量
同进程的一样
Semaphore管理一个内置的计数器,
每当调用acquire()时内置计数器-1;
调用release() 时内置计数器+1;
计数器不能小于0;当计数器为0时,acquire()将阻塞线程直到其他线程调用release()。
实例:(同时只有5个线程可以获得semaphore,即可以限制最大连接数为5):

from threading import Thread,Semaphore import time import random def func(i): sem.acquire() print('第%s个客人进入屋子'%i) time.sleep(random.randint(1,3)) print('第%s个客人离开屋子' % i) sem.release() sem = Semaphore(5) for i in range(20): t = Thread(target=func,args=(i,)) t.start()
事件
同进程的一样
线程的一个关键特性是每个线程都是独立运行且状态不可预测。如果程序中的其 他线程需要通过判断某个线程的状态来确定自己下一步的操作,这时线程同步问题就会变得非常棘手。为了解决这些问题,我们需要使用threading库中的Event对象。 对象包含一个可由线程设置的信号标志,它允许线程等待某些事件的发生。在 初始情况下,Event对象中的信号标志被设置为假。如果有线程等待一个Event对象, 而这个Event对象的标志为假,那么这个线程将会被一直阻塞直至该标志为真。一个线程如果将一个Event对象的信号标志设置为真,它将唤醒所有等待这个Event对象的线程。如果一个线程等待一个已经被设置为真的Event对象,那么它将忽略这个事件, 继续执行。
event.isSet():返回event的状态值; event.wait():如果 event.isSet()==False将阻塞线程; event.set(): 设置event的状态值为True,所有阻塞池的线程激活进入就绪状态, 等待操作系统调度; event.clear():恢复event的状态值为False。

from threading import Thread,Event import time import random def conn_mysql(e,i): count = 1 while 1: if e.is_set():# 如果为True,就是可以连接上数据库 break if count > 3: print('连接超时') return print('第%s个人正在尝试第%s次连接!'%(i,count)) e.wait(0.5)# 在这里阻塞等待0.5秒,模拟用户连接时的等待 count+=1 print('第%s个人连接成功'%i) def check_mysql(e): print('