1. 基本概念
作业:用户在一次解决或是一个事务处理过程中要求计算机系统所做的工作的集合,它包括用户程序、所需要的数据集控制命令等。作业是由一系列有序的步骤组成的。作业的完成要经过作业提交、作业收容、作业执行和作业完成4个阶段。在执行一个作业可能会运行多个不同的进程。
进程:程序在一个数据集上的一次运行过程。是操作系统资源分配的基本单位。
在Windows下,进程又被细化为线程,也就是一个进程下有多个能独立运行的更小的单位. 进程还拥有一个私有的虚拟地址空间,该空间仅能被它所包含的线程访问。
线程:是进程中的一个实体,是被操作系统独立调度和执行的基本单位。一个进程包含一个或多个线程。
线程只能归属于一个进程并且它只能访问该进程所拥有的资源。当操作系统创建一个进程后,该进程会自动申请一个名为主线程或首要线程的线程。主线程将执行运行时宿主, 而运行时宿主会负责载入CLR。
简单总结:
作业是向计算机提交任务的任务实体,
而进程是执行实体,是资源分配的基本单位,
线程是处理机调度的基本单位。
2. 进程
2.1 进程的概念主要有两点:
第一,进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)。文本区域存储处理器执行的代码;数据区域存储变量和进程执行期间使用的动态分配的内存;堆栈区域存储着活动过程调用的指令和本地变量。
第二,进程是一个“执行中的程序”。程序是一个没有生命的实体,只有处理器赋予程序生命时,它才能成为一个活动的实体,我们称其为进程。
2.2 进程特征
动态性:进程的实质是程序在多道程序系统中的一次执行过程,进程是动态产生,动态消亡的。
并发性:任何进程都可以同其他进程一起并发执行
独立性:进程是一个能独立运行的基本单位,同时也是系统分配资源和调度的独立单位;
异步性:由于进程间的相互制约,使进程具有执行的间断性,即进程按各自独立的、不可预知的速度向前推进
结构特征:进程由程序、数据和进程控制块三部分组成。
多个不同的进程可以包含相同的程序:一个程序在不同的数据集里就构成不同的进程,能得到不同的结果;但是执行过程中,程序不能发生改变。
2.3 进程和作业的区别
1、作业是用户向计算机提交任务的任务实体。在用户向计算机提交作业后,系统将它放入外存中的作业等待队列中等待执行。而进程则是完成用户任务的执行实体,是向系统申请分配资源的基本单位。任一进程,只要它被创建,总有相应的部分存在于内存中。
2、一个作业可由多个进程组成,且必须至少由一个进程组成,反过来则不成立。
3、作业的概念主要用在批处理系统中,像UNIX这样的分时系统中就没有作业的概念。而进程的概念则用在几乎所有的多道程序系统中
2.4 进程和程序的区别
1、程序是静态概念,本身可以作为一种软件资源保存;而进程是程序的一次执行过程,是动态概念,它有一定的生命期,是动态地产生和消亡的。
2、进程是一个能独立运行的单位,能与其他进程并发执行,进程是作为资源申请和调度单位存在的;而通常的程序段不能作为一个独立运行的单位。
3、程序和进程无一一对应关系。一方面一个程序可由多个进程共用;另一方面,一个进程在活动中又可顺序地执行若干个程序。
2.3 进程的状态
进程执行时的间断性,决定了进程可能具有多种状态。事实上,运行中的进程可能具有以下三种基本状态。
1)就绪状态(Ready):
进程已获得除处理器外的所需资源,等待分配处理器资源;只要分配了处理器进程就可执行。就绪进程可以按多个优先级来划分队列。例如,当一个进程由于时间片用完而进入就绪状态时,排入低优先级队列;当进程由I/O操作完成而进入就绪状态时,排入高优先级队列。
2)运行状态(Running):
进程占用处理器资源;处于此状态的进程的数目小于等于处理器的数目。在没有其他进程可以执行时(如所有进程都在阻塞状态),通常会自动执行系统的空闲进程。
3)阻塞状态(Blocked):
由于进程等待某种条件(如I/O操作或进程同步),在条件满足之前无法继续执行。该事件发生前即使把处理机分配给该进程,也无法运行。
进程状态的转换
状态变化图
2.5 Windows 和linux进程
进程创建:WINDOWS:WIN32接口,函数CreateProcess。LINUX:FORK函数,父子进程的区别PPID和PID。
LINUX中的进程的含义和WINDOWS中是不一样的。LINUX中的进程本身是可以执行的。而WINDOWS中,进程只是表示一个资源的拥有体,是不能执行的。要执行的话,一定需要一个线程。这也部分解释了为什么CreateProcess中为啥一定要传入要执行的文件的名字。LINUX子进程直接使用父亲的地址空间,只有子进程加载一个新的可执行文件的时候才创建自己的地址空间。也就是很多时候共享地址空间,有个函数(忘了)就是如果决定开始写入,则将资源拷贝一份;如果此时突然决定不需要写入,此时就能避免系统资源的消耗。
进程相对于WINDOWS中的线程,所以同WINDOWS中的线程创建相比,二者的开销应该差不多。
执行:LINUX:exec, WNDOWS:WIN32函数CreateProcess。
底层:两者大部分都是C和汇编,在我们看来以为LINUX全是C,WINDOWS是C++,其实不然操作硬件的是汇编和C。
使用了不少宏定义,简化地址运算和程序结构,如定义一个空地址:0x000000表示NULL。
内核:
WINDOWS:相对稳定的API,就是向后兼容,我们总是看到兼容的字眼。升级方便,过于臃肿。复杂的继承关系,藏得结结实实的代码。
LINUX:不固定的接口,为了更加的技术化,所以LINUX一直改进,很多时候偏离了桌面用户。头文件和执行文件也就是一些算法的改进和函数改进。如果你看完2.4的内核后,再看2.6的内核差异不大,但是不少。升级复杂,考虑的东西太多。数不尽的代码,代码是宝贵的,又是该死的。
进程算法(优先级):
LINUX:图形界面少点,内核支持抢占的同时又支持CFS公平调度算法。二叉树、红黑树等算法。
WINDOWS:进程假死现象普遍,采用阻塞算法,很多时候导致不流畅、卡死。现在win7做了相当大的改进。算法不清楚,以前阻塞编程的不少。内存:基本上两者差不多,在X86你懂得。
WINDOS里的进程/线程是继承自OS/2的。在WINDOS里,"进程"是指一个程序,而"线程"是一个"进程"里的一个执行"线索"。从核心上讲, WINDOS的多进程与Linux并无多大的区别,在WINDOS里的线程才相当于Linux的进程,是一个实际正在执行的代码。但是,WINDOS里同一个进程里各个线程之间是共享数据段的。这才是与Linux的进程最大的不同。
下面这段程序显示了WINDOS下一个进程如何启动一个线程。
int g;
DWORD WINAPI ChildProcess( LPVOID lpParameter ){
int i;
for ( i = 1; i <1000; i ++) {
g ++;
printf( "This is Child Thread: %d", g );
}
ExitThread( 0 );
};
void main()
{
int threadID;
int i;
g = 0;
CreateThread( NULL, 0, ChildProcess, NULL, 0, &threadID );
for ( i = 1; i <1000; i ++) {
g ++;
printf( "This is Parent Thread: %d", g );
}
}
在WINDOS下,使用CreateThread函数创建线程,与Linux下创建进程不同,WINDOS线程不是从创建处开始运行的,而是由 CreateThread指定一个函数,线程就从那个函数处开始运行。此程序同前面的UNIX程序一样,由两个线程各打印1000条信息。 threadID是子线程的线程号,另外,全局变量g是子线程与父线程共享的,这就是与Linux最大的不同之处。大家可以看出,WINDOS的进程/线程要比Linux复杂,在Linux要实现类似WINDOS的线程并不难,只要fork以后,让子进程调用ThreadProc函数,并且为全局变量开设共享数据区就行了,但在WINDOS下就无法实现类似fork的功能了。所以现在WINDOS下的C语言编译器所提供的库函数虽然已经能兼容大多数Linux/UNIX的库函数,但却仍无法实现fork。
对于多任务系统,共享数据区是必要的,但也是一个容易引起混乱的问题,在WINDOS下,一个程序员很容易忘记线程之间的数据是共享的这一情况,一个线程修改过一个变量后,另一个线程却又修改了它,结果引起程序出问题。但在Linux下,由于变量本来并不共享,而由程序员来显式地指定要共享的数据,使程序变得更清晰与安全。
至于WINDOS的"进程"概念,其含义则是"应用程序",也就是相当于UNIX下的exec了。
2.6 进程通信
windows的进程间的通信方式有:
1.文件映射;2. 共享内存(是文件映射的一种特殊情况);3.邮件槽(mailslot)(点对点消息队列); 4.匿名管道;5;命名管道; 6. 剪贴板;7.动态数据交换;8.对象链接与嵌入;9.远程过程调用;10.动态链接库;11.socket;12.WM_COPYDATA .
linux进程间通信的方式有:1.管道 2.信号量 3.共享内存 4.消息队列 5.套接字 6.信号
windows和linux共有的进程间通信方式:1. 消息(linux中叫做信号) 2. 共享内存 3. 邮槽 4. 管道 5.socket
Windows 进程
在运行于32位处理器上的32位Windows操作系统中,可将一个进程视为一段大小为4GB(232字节)的线性内存空间,它起始于0x00000000结束于0xFFFFFFFF。这段内存空间不能被其他进程所访问,所以称为该进程的私有空间。这段空间被平分为两块,2GB被系统所有,剩下2GB被用户所有。
如果有N个进程运行在同一台机器上,那么将需要N×4GB的海量RAM,还好事实并非如此。
- Windows是按需为每个进程分配内存的,4GB是32位系统中一个进程所占空间的上限。
- 将进程所需的内存划分为4KB大小的内存页,并根据使用情况将这些内存页存储在硬盘上或加载到RAM中,通过系统的这种虚拟内存机制,我们可以有效地减少对实际内存的需求量。当然这些对用户和开发者来说都是透明的。
在32位Windows中,进程占据4GB的虚拟地址空间。与它们在MS-DOS和16位Windows操作系统中不同,32位Windows进程是没有活力的。这就是说,一个32位Windows进程并不执行什么指令,它只是占据着4GB的地址空间,此空间中有应用程序EXE文件的代码和数据。
EXE需要的DLL也将它们的代码的数据装入到进程的地址空间。除了地址空间,进程还占有某些资源,比如文件、动态内存分配和线程。当进程终止时,在它生命期中创建的各种资源将被清除。
如上所述,进程是没有活力的,它只是一个静态的概念。
为了让进程完成一些工作,进程必须至少占有一线程,所以线程是描述进程内的执行,正是线程负责执行包含在进程的地址空间中的代码。
实际上,单个进程可能包含几个线程,它们可以同时执行进程的地址空间中的代码。
为了做到这一点,
每个线程有自己的一组CPU寄存器和椎。每个进程至少有一个线址程在执行其地址空间中的代码,
如果没有线程执行进程地空间中的代码,进程也就没有继续存在的理由,系统将自动清除进程及其地址空间。
为了运行所有这些线程,操作系统为每个独立线程安排一些CPU时间,操作系统以轮转方式向线程提供时间片,这就给人一种假象,好象这些线程都在同时运行。
创建一个32位Windows进程时,它的第一个线程称为主线程,由系统自动生成,然后可由这个主线程生成额外的线程,这些线程又可生成更多的线程。
3. 线程
3.1 线程的引入
(1)创建进程。系统在创建进程时,必须为之分配其所必需的、除处理机以外的所有资源。如内存空间、I/O设备以及建立相应的PCB结构。
(2)撤消进程。系统在撤消进程时,又必须先对这些资源进行回收操作,然后再撤消PCB结构。
(3)进程切换。在对进程进行切换时,由于要保留当前进程的CPU环境和设置新选中进程的CPU环境,为此需花费不少处理机时间。
3.2 线程特征:
1、线程的执行状态包括运行、就绪和等待。
2、进程中的所有线程共享所属进程内的主存和其他资源。
3、拥有自己的线程控制块和执行栈,寄存器。
3.3 线程属性
在多线程OS中,通常是在一个进程中包括多个线程,每个线程都是作为利用CPU的基本单位,是花费最小开销的实体。线程具有以下属性。
1)轻型实体
线程中的实体基本上不拥有系统资源,只是有一点必不可少的、能保证独立运行的资源,比如,在每个线程中都应具有一个用于控制线程运行的线程控制块TCB,用于指示被执行指令序列的程序计数器、保留局部变量、少数状态参数和返回地址等的一组寄存器和堆栈。
2)独立调度和分派的基本单位。
在多线程OS中,线程是能独立运行的基本单位,因而也是独立调度和分派的基本单位。由于线程很“轻”,故线程的切换非常迅速且开销小。
3)可并发执行。
在一个进程中的多个线程之间,可以并发执行,甚至允许在一个进程中所有线程都能并发执行;同样,不同进程中的线程也能并发执行。
4)共享进程资源。
在同一进程中的各个线程,都可以共享该进程所拥有的资源,这首先表现在:所有线程都具有相同的地址空间(进程的地址空间),这意味着,线程可以访问该地址空间的每一个虚地址;此外,还可以访问进程所拥有的已打开文件、定时器、信号量机构等。
3.4 进程和线程的区别:
线程和进程的区别在于,子进程和父进程有不同的代码和数据空间,而多个线程则共享数据空间,每个线程有自己的执行堆栈和程序计数器为其执行上下文。多线程主要是为了节约CPU时间,发挥利用,根据具体情况而定。线程的运行中需要使用计算机的内存资源和CPU。
通常在一个进程中可以包含若干个线程,它们可以利用进程所拥有的资源。在引入线程的操作系统中,通常都是把进程作为分配资源的基本单位,而把线程作为独立运行和独立调度的基本单位。由于线程比进程更小,基本上不拥有系统资源,故对它的调度所付出的开销就会小得多,能更高效的提高系统内多个程序间并发执行的程度,从而显著提高系统资源的利用率和吞吐量。
因而近年来推出的通用操作系统都引入了线程,以便进一步提高系统的并发性,并把它视为现代操作系统的一个重要指标。
①、在调度方面,线程是调度和指派的基本单位,而进程是资源拥有的基本单位。在同一进程中,线程的切换不会引起进程切换。在不同的进程中进行线程切换,如一个进程内的线程切换到另一个进程中的线程时,将会引起进程切换。
②、在拥有资源方面,线程不拥有系统资源,但可以访问其隶属进程的系统资源,从而获得系统资源。 进程间相互独立,同一进程的各线程间共享。某进程内的线程在其它进程不可见。
③、在并发性方面,在引入线程的操作系统中,不仅进程之间可以并发执行,而且同一进程内的多线程之间也可并发执行,从而使操作系统具有更好的并发性,大大提高系统的吞吐量。
④、调度切换的系统开销方面,进程切换时的时空开销很大,但线程切换时,只需保存和设置少量寄存器内容,因此开销很小。
另外通信方面,进程间通信IPC,而线程通信由于同一进程内的多个线程共享进程的相同地址空间,线程间可以直接读写进程数据段(如全局变量)来进行通信。因此,多线程之间的同步与通信非常容易实现,甚至无须操作系统内核的干预
在多线程OS中,进程不是一个可执行的实体
3.5 引入线程的好处:
(1) 易于调度。线程占用内存少,易于切换,可以轻装运行。
(2) 提高并发性。由于线程占用内存少,在内存中一次容纳的线程就多。这样有利于提高程序的并发与并行程度。
(3) 开销少。创建线程比创建进程开销少。
(4) 利于充分发挥多处理器功能。在多处理器系统中,一个进程通过创建多个线程,让每个线程在不同的处理器上运行,进一步提高并发性。
3.6 用户级线程和内核支持线程较两种线程的优缺点 :
1.线程的调度与切换速度:内核支持线程的调度和切换与进程的调度和切换十分相似。
2.系统功能调用:当传统的用户进程调用一个系统功能调用时,要由用户态进入核心态,用户进程将被阻塞。当内核完成系统调用而返回时,才将该进程唤醒,继续执行。
3.线程执行时间 :对于只设置了用户级线程的系统,调度是以进程为单位进行的。在采用轮转调度算法时,各个进程轮流执行一个时间片,这对诸进程而言似乎是公平的。