socket之UDP协议
1.UDP协议
UDP 是User Datagram Protocol的简称, 中文名是用户数据报协议,是OSI(Open System Interconnection 参考模型中一种无连接的传输层协议,提供简单不可靠信息传送服务
是一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成。且不对传送数据包进行可靠性保证,适合于一次传输少量数据。
2.UDP 通讯流程
UDP通讯流程与对讲机非常类似
买传呼机 == socket() 固定对讲频道 == bind() 收信号 == recvfrom() 发信号 == sendto()
3.UDP与TCP的具体传输过程分析对比
TCP在传输过程中需要保证数据的完整性,所以当数据从操作系统缓存发出时,并不会立即删除缓存数据,而是等待对方返回确认信息后才会删除,
而UDP发送后立即清空数据,所以数据发送是一次性的,无论成功还是失败,所以会造成数据丢失,当然TCP也会丢失但是会有自动重传机制。
不会粘包
案例之UDP的使用:
服务器:
# 先导入socket模块 from socket import * # 获得套接字对象 server = socket(AF_INET,SOCK_DGRAM) # 作为服务器,必须绑定一个地址和端口,供 server.bind(('192.168.13.29',8080)) while True: try: # 收取客户端的信息,此处msg是数据消息,addr是客户端的套接字对象(IP地址和端口) msg,addr = server.recvfrom(1024) # 给客户端回复消息,注意,此处发送的是数据消息,和收到客户端的套接字对象 server.sendto(msg.upper(),addr) except Exception as f: print('异常原因:',f) # 因为 UDP每次发送的数据是一个整体,所以不会出现粘包问题,但是却会造成丢包问题。因为它只管发送数据, # 却不会理会发送数据的成功与否
客户端:
from socket import * client = socket(AF_INET,SOCK_DGRAM) while True: cmd = input('输入指令:') # 客户端送信息给服务端,需要加上信息内容,和客户端的IP和端口,如果端口不正确他也会发送数据,不会报错 # 但是数据就不知道发往哪儿了 client.sendto(cmd.encode('utf-8'),('192.168.13.29',8080)) # 客户端接收数据,也需要接收信息和对方的套接字对象(IP和端口) data,addr = client.recvfrom(1024) print(data.decode('utf-8')) # 以上就完成了一个简单的基于UDP协议的通讯了
注意1:发送方的数据长度应与接收方的接受长度统一,否则将丢失数据,windows下直接报错。
注意2:缓存区大小不可能无限大,如果要传输大数据超过UDP数据报大小,则需要在UDP基础上加上额外的应用层协议。
并且即使缓冲区足够仍会出现数据丢失,UDP的最大数据长度为1472
以下是计算方式:
1.在链路层,由以太网的物理特性决定了数据帧的长度为64+18-1500+18,其中的18是数据帧的头和尾,也就是说数据帧的内容最大为1500(不包括帧头和帧尾),即MTU(Maximum Transmission Unit)为1500; 2.在网络层,因为IP包的首部要占用20字节,所以这的MTU为1500-20=1480; 3.在传输层,对于UDP包的首部要占用8字节,所以这的MTU为1480-8=1472;
所以,在应用层,你的Data最大长度为1472。当我们的UDP包中的数据多于MTU(1472)时,发送方的IP层需要分片fragmentation进行传输,而在接收方IP层则需要进行数据报重组,由于UDP是不可靠的传输协议,如果分片丢失导致重组失败,将导致UDP数据包被丢弃。
4.UDP的应用:之DNS
网络请求的具体流程
我们的socket的程序要想完成通讯都需要知道服务器的IP的端口,而我们在使用浏览器访问网页时并没有指定服务器的IP和端口,这是为什么呢?
我们都知道,两台计算机要通讯则必须知道对方的IP地址,但是IP地址较复杂不方便记忆,造成用户上网成本高,体验差,于是就想到了给IP地址取别名的办法,这就是域名。如www.baidu.com
域名:
是给IP地址取的别名,同时为了在查询名字与地址对应关系时更快,所以给域名也划分了不同区域。
分类
1.1 国际顶级域名,工商企业.com .top,网络提供商.net,非营利性组织.org,教育.edu
1.2 国际域名,中国.cn,美国.us,日本.jp
但随之而来的问题是域名虽然简化了记忆,但是数据传输依然要依赖IP地址和端口,所以想要还要提供一个可以通过域名获取ip的机制,这就是DNS
DNS
全称域名解析服务器,其本质上就是一个大型数据库系统
DNS访问流程:
当我们要访问一个地址如www.baidu.com时
1.浏览器首先会询问本地DNS服务器(即网络运营商如电信,联通),以获取对应的IP,
2.如果本地DNS中没有想要的记录,则本地DNS,会询问根(1级)域名服务器,全球有13台
根域名服务器中不可能存储全世界所有IP所以它仅存储顶级(2级)域名服务器的IP
例如:COM域主服务器的IP,NET域主服务器的IP
3.于是本地DNS得到COM域服务器IP后向其发送请求,
4.由于一个域名可以对应多个IP所以还需要向三级域名主机发出请求
5.最后将返回的IP信息缓存到本地DNS中备用
DNS的问题
这样一来就造成一个问题 当一个已存在的域名更换IP后在一段时间内是无法访问的,因为子域名服务器需要到达指定时间后才会自动刷新纪录
5.目前的问题
TCP中只能处理一个客户端的数据
UDP虽然看起来可以同时处理,但本质上也是按照顺序来处理的
为了提高用户访问速度,必需找到一种可以使得服务器可以同时处理多个客户端请求的能力
什么是并发编程
并发指的是多个任务同时被执行,并发编程指的是编写支持多任务并发的应用程序在。
之前的TCP通讯中,服务器在建立连接后需要一个循环来与客户端循环的收发数据,但服务器并不知道客户端什么时候会发来数据,导致没有数时服务器进入了一个等待状态,此时其他客户端也无法链接服务器,很明显这是不合理的,学习并发编程就是要找到一种方案,让一个程序中的的多个任务可以同时被处理;
什么是进程
进程指的是正在运行的程序,是一系列过程的统称,也是操作系统在调度和进行资源分配的基本单位
进程是实现并发的一种方式,在学习并发编程之前要先了解进程的基本概念以及多进程的实现原理,这就不得不提到操作系统了,因为进程这个概念来自于操作系统,没有操作系统就没有进程
多进程的实现原理-多道技术
操作系统介绍
下图是操作系统在整个计算机中所在的位置:
位于应用软件和硬件设备之间,本质上也是一个软件,
由系统内核(管理所有硬件资源)与系统接口(提供给程序员使用的接口)组成
操作系统是为方便用户操作计算机而提供的一个运行在硬件之上的软件
操作系统的两个核心作用
1.为用户屏蔽了复杂繁琐的硬件接口,为应用程序提供了,清晰易用的系统接口
有了这些接口以后程序员不用再直接与硬件打交道了
例子:有了操作系统后我们就可以使用资源管理器来操作硬盘上的数据,而不用操心,磁头的移动啊,数据的读写等等
2.操作系统将应用程序对硬件资源的竞争变成有序的使用
例子:所有软件 qq啊 微信啊 吃鸡啊都共用一套硬件设备 假设现有三个程序都在使用打印机,如果不能妥善管理竞争问题,可能一个程序打印了一半图片后,另一个程序抢到了打印机执行权于是打印了一半文本,导致两个程序的任务都没能完成,操作系统的任务就是将这些无序的操作变得有序
操作系统与应用程序的区别
二者的区别不在于的地位,它们都是软件,而操作系统可以看做一款特殊的软件
1.操作系统是是受保护的:无法被用户修改(应用软件如qq不属于操作系统可以随便卸载)
2.大型:linux或widows源代码都在五百万行以上,这仅仅是内核,不包括用户程序,如GUI,库以及基本应用软件(如windows Explorer等),很容易就能达到这个数量的10倍或者20倍之多
3.长寿:由于操作系统源码量巨大,编写是非常耗时耗力的,一旦完成,操作系统所有者便不会轻易的放弃重写,二是在原有基础上改进,基本上可以把windows95/98/Me看出一个操作系统
操作系统发展历史:
多道技术出现在第三代操作系统中,是为了解决前两代操作系统存在的种种问题而出现,那么前两代操作系统都有哪些问题呢?一起来看看操作系统的发展历史:
第一代计算机(1940~1955):真空管和穿孔卡片
第一代计算机的产生背景:
第一代之前人类是想用机械取代人力,第一代计算机的产生是计算机由机械时代进入电子时代的标志,从Babbage失败之后一直到第二次世界大战,数字计算机的建造几乎没有什么进展,第二次世界大战刺激了有关计算机研究的爆炸性进展。
lowa州立大学的john Atanasoff教授和他的学生Clifford Berry建造了据认为是第一台可工作的数字计算机。该机器使用300个真空管。大约在同时,Konrad Zuse在柏林用继电器构建了Z3计算机,英格兰布莱切利园的一个小组在1944年构建了Colossus,Howard Aiken在哈佛大学建造了Mark 1,宾夕法尼亚大学的William Mauchley和他的学生J.Presper Eckert建造了ENIAC。这些机器有的是二进制的,有的使用真空管,有的是可编程的,但都非常原始,甚至需要花费数秒钟时间才能完成最简单的运算。
在这个时期,同一个小组里的工程师们,设计、建造、编程、操作及维护同一台机器,所有的程序设计是用纯粹的机器语言编写的,甚至更糟糕,需要通过成千上万根电缆接到插件板上连成电路来控制机器的基本功能。没有程序设计语言(汇编也没有),操作系统则是从来都没听说过。使用机器的过程更加原始,详见下‘工作过程’
特点: 没有操作系统的概念 所有的程序设计都是直接操控硬件
工作过程: 程序员在墙上的机时表预约一段时间,然后程序员拿着他的插件版到机房里,将自己的插件板街道计算机里,这几个小时内他独享整个计算机资源,后面的一批人都得等着(两万多个真空管经常会有被烧坏的情况出现)。
后来出现了穿孔卡片,可以将程序写在卡片上,然后读入机而不用插件板
优点:
程序员在申请的时间段内独享整个资源,可以即时地调试自己的程序(有bug可以立刻处理)
缺点:
浪费计算机资源,一个时间段内只有一个人用。 注意:同一时刻只有一个程序在内存中,被cpu调用执行,比方说10个程序的执行,是串行的
第二代计算机(1955~1965):晶体管和批处理系统
第二代计算机的产生背景:
由于当时的计算机非常昂贵,自认很自然的想办法较少机时的浪费。通常采用的方法就是批处理系统。
特点: 设计人员、生产人员、操作人员、程序人员和维护人员直接有了明确的分工,计算机被锁在专用空调房间中,由专业操作人员运行,这便是‘大型机’。
有了操作系统的概念
有了程序设计语言:FORTRAN语言或汇编语言,写到纸上,然后穿孔打成卡片,再将卡片盒带到输入室,交给操作员,然后喝着咖啡等待输出接口
工作过程:
第二代如何解决第一代的问题/缺点: 1.把一堆人的输入攒成一大波输入, 2.然后顺序计算(这是有问题的,但是第二代计算也没有解决) 3.把一堆人的输出攒成一大波输出
现代操作系统的前身:(见图)
优点:批处理,节省了机时
缺点:1.整个流程需要人参与控制,将磁带搬来搬去(中间俩小人)
2.计算的过程仍然是顺序计算-》串行
3.程序员原来独享一段时间的计算机,现在必须被统一规划到一批作业中,等待结果和重新调试的过程都需要等同批次的其他程序都运作完才可以(这极大的影响了程序的开发效率,无法及时调试程序)
第三代计算机(1965~1980):集成电路芯片和多道程序设计
第三代计算机的产生背景:
20世纪60年代初期,大多数计算机厂商都有两条完全不兼容的生产线。
一条是面向字的:大型的科学计算机,如IBM 7094,见上图,主要用于科学计算和工程计算
另外一条是面向字符的:商用计算机,如IBM 1401,见上图,主要用于银行和保险公司从事磁带归档和打印服务
开发和维护完全不同的产品是昂贵的,同时不同的用户对计算机的用途不同。
IBM公司试图通过引入system/360系列来同时满足科学计算和商业计算,360系列低档机与1401相当,高档机比7094功能强很多,不同的性能卖不同的价格
360是第一个采用了(小规模)芯片(集成电路)的主流机型,与采用晶体管的第二代计算机相比,性价比有了很大的提高。这些计算机的后代仍在大型的计算机中心里使用,此乃现在服务器的前身,这些服务器每秒处理不小于千次的请求。
如何解决第二代计算机的问题1: 卡片被拿到机房后能够很快的将作业从卡片读入磁盘,于是任何时刻当一个作业结束时,操作系统就能将一个作业从磁带读出,装进空出来的内存区域运行,这种技术叫做 同时的外部设备联机操作:SPOOLING,该技术同时用于输出。当采用了这种技术后,就不在需要IBM1401机了,也不必将磁带搬来搬去了(中间俩小人不再需要)
如何解决第二代计算机的问题2:
第三代计算机的操作系统广泛应用了第二代计算机的操作系统没有的关键技术:多道技术
cpu在执行一个任务的过程中,若需要操作硬盘,则发送操作硬盘的指令,指令一旦发出,硬盘上的机械手臂滑动读取数据到内存中,这一段时间,cpu需要等待,时间可能很短,但对于cpu来说已经很长很长,长到可以让cpu做很多其他的任务,如果我们让cpu在这段时间内切换到去做其他的任务,这样cpu不就充分利用了吗。这正是多道技术产生的技术背景
多道技术:
多道技术中的多道指的是多个程序,多道技术的实现是为了解决多个程序竞争或者说共享同一个资源(比如cpu)的有序调度问题,解决方式即多路复用,多路复用分为时间上的复用和空间上的复用。
空间上的复用:将内存分为几部分,每个部分放入一个程序,这样,同一时间内存中就有了多道程序。
时间上的复用:当一个程序在等待I/O时,另一个程序可以使用cpu,如果内存中可以同时存放足够多的作业,则cpu的利用率可以接近100%,类似于我们小学数学所学的统筹方法。(操作系统采用了多道技术后,可以控制进程的切换,或者说进程之间去争抢cpu的执行权限。这种切换不仅会在一个进程遇到io时进行,一个进程占用cpu时间过长也会切换,或者说被操作系统夺走cpu的执行权限)
空间上的复用最大的问题是:程序之间的内存必须分割,这种分割需要在硬件层面实现,由操作系统控制。如果内存彼此不分割,则一个程序可以访问另外一个程序的内存,
首先丧失的是安全性,比如你的qq程序可以访问操作系统的内存,这意味着你的qq可以拿到操作系统的所有权限。
其次丧失的是稳定性,某个程序崩溃时有可能把别的程序的内存也给回收了,比方说把操作系统的内存给回收了,则操作系统崩溃。
多道技术案例:
生活中我们进程会同时做多个任务,但是本质上一个人是不可能同时做执行多个任务的,
例1:吃饭和打游戏,同时执行,本质上是在两个任务之间切换执行,吃一口饭然后打打游戏,打会儿游戏再吃一口饭;
例2:做饭和洗衣服,如果没有多道技术,在电饭煲做饭的时候我们就只能等着,假设洗米花费5分钟,煮饭花费40分钟,相当于40分钟是被浪费的时间。那就可以在煮饭的等待过程中去洗衣服,假设把衣服装进洗衣机花费5分钟,洗衣服花费40分钟,那么总耗时为 5(洗米)+5(装衣服)+40(最长等待时间) 大大提高了工作效率
多道技术也是在不同任务间切换执行,由于计算机的切换速度非常快,所以用户是没有任何感觉的,看起来就像是两个任务都在执行,但是另一个问题是,仅仅是切换还不行,还需要在切换前保存当前状态,切换回来时恢复状态,这些切换和保存都是需要花费时间的!在上述案例中由于任务过程中出现了等待即IO操作所以进行了切换,而对于一些不会出现IO操作的程序而言,切换不仅不能提高效率,反而会降低效率
例如:做一百道乘法题和做一百道除法题,两个任务都是计算任务是不需要等待的,此时的切换反而降低了运行效率!
第三代计算机的操作系统仍然是批处理
许多程序员怀念第一代独享的计算机,可以即时调试自己的程序。为了满足程序员们很快可以得到响应,出现了分时操作系统
如何解决第二代计算机的问题3:
分时操作系统: 多个联机终端+多道技术
20个客户端同时加载到内存,有17在思考,3个在运行,cpu就采用多道的方式处理内存中的这3个程序,由于客户提交的一般都是简短的指令而且很少有耗时长的,索引计算机能够为许多用户提供快速的交互式服务,所有的用户都以为自己独享了计算机资源
CTTS:麻省理工(MIT)在一台改装过的7094机上开发成功的,CTSS兼容分时系统,第三代计算机广泛采用了必须的保护硬件(程序之间的内存彼此隔离)之后,分时系统才开始流行
MIT,贝尔实验室和通用电气在CTTS成功研制后决定开发能够同时支持上百终端的MULTICS(其设计者着眼于建造满足波士顿地区所有用户计算需求的一台机器),很明显真是要上天啊,最后摔死了。
后来一位参加过MULTICS研制的贝尔实验室计算机科学家Ken Thompson开发了一个简易的,单用户版本的MULTICS,这就是后来的UNIX系统。基于它衍生了很多其他的Unix版本,为了使程序能在任何版本的unix上运行,IEEE提出了一个unix标准,即posix(可移植的操作系统接口Portable Operating System Interface)
后来,在1987年,出现了一个UNIX的小型克隆,即minix,用于教学使用。芬兰学生Linus Torvalds基于它编写了Linux
第四代计算机(1980~至今):个人计算机
第四代也就是我们常见的操作系统,大多是具备图形化界面的,例如:Windows,macOS ,CentOS等
由于采用了IC设计,计算机的体积下降,性能增长,并且成本以及可以被普通消费者接受,而第三代操作系统大都需要进行专业的学习才能使用,于是各个大佬公司开始开发那种不需要专业学习也可以快速上手的操作系统,即上述操作系统!