一:多人互动架构方案
(一)WebRTC回顾,两层含义:
1.WebRTC是google开源的流媒体客户端,可以进行实时通讯,主要应用于浏览器之间进行实时通讯,也可以单独编译在自己的应用中
2.WebRTC也是一套规范,只对客户端做了定义,如何进行媒体协商、通信流程...;对于服务端,比如信令服务端、中继服务,并没有在WebRTC中定义,由厂商定义;对于多人互动方案也没有定义
(二)3种框架进行多人互动
Mesh方案:从WebRTC客户端演变过来,多人互动--->变为多个1V1通讯,会导致网络连接过多,任一个客户端都需要与其他客户进行连接,带宽占用过多,不适用商业
MCU方案:硬件演变为软件,包含一个中心服务器。中心服务器会对多路视频进行混屏(解码、编码),降低带宽,占CPU,支持的同时在线人数有限。此外,客户端无法对其进行控制,灵活性较差。
SFU方案: 简单、主流,不对数据处理,当服务器收到数据后直接进行数据转发,只进行转发。每个客户端都会收到其他客户端通过服务器转发过来的数据,但是相对于Mesh,建立的连接只和服务器个数有关。并且相对于MCU,客户端对于接受的其他各个客户端的数据可以进行灵活控制。缺点:相对有MCU传输的数据更多,造成客户端到服务端的带宽占用过高,带宽不够时会造成丢包,服务质量无法保证!改进方法:1.降低码流(上传时/发送时)2.根据H264中SVC分层方式,将一路视频分为核心层、扩展层、边缘层,一层比一层清晰(增量累加),当带宽足够时可以全部下发给客户端,不够时可以选择传输核心层或者核心层+扩展层从而降低下行带宽数量,缓解质量不足问题
二: 架构模型详解
(一)Mesh架构模型详解
1. 1V1通讯模型
WebRTC学习(八)1V1音视频实时互动直播系统
WebRTC学习(八)1V1音视频实时互动直播系统(2)
2. Mesh通讯模型(未画出信令服务器)
Mesh方案,不依赖于服务器进行数据中转(不会走TURN),是各个端之间建立连接。
内部同1V1进行设备检测、数据编解码、媒体协商、建立连接、发送数据。唯一区别就是1V1可以通过TURN转发。
Mesh一般使用P2P直连,不会经过TURN服务器转发,太复杂,不易管理。但是国内需要考虑穿透率,所以该方案一般用在局域网中进行使用和学习!
(二)MCU架构模型详解
在MCU中心服务器中,存在多个Room,这里只选取左侧的进行讲解:
1.对于每一个客户端C1、C2...C4,进入房间中,在房间中(服务器端)都有对应的模块进行连接,客户端进行通讯的数据,比如音频数据、视频数据都通过该连接传递给服务端。
2.服务端模块收到数据后,会对数据进行解复用,将音视频数据拆解,将音频放入音频处理模块,将视频放入视频处理模块,实现对数据解码,然后进行混屏,之后进行编码压缩。返回压缩数据(一路流)到各个客户端。
缺点:服务端无法支持大量客户端,最多支持几十路流处理;客户端获取的数据固定(由服务端处理后的),无法进行编辑(拉伸、改变清晰度)
(三)SFU架构模型详解(主流)
与MCU类似,只是对于SFU而言,不对媒体流进行解码、混屏、编码;而是直接进行转发!!对于终端,接受的数据是原始分辨率,可以对数据进行处理,比MCU更加灵活。
缺点:对于接受端的下行带宽有考验,如果带宽不允许,可能导致服务质量不足
解决方案:
1.simulcast分层,可以设置成两层、三层或是四层甚至更高层次的分辨率,比如最高层是640X360的分辨率,下一层是240X120的分辨率,再一层是80X60的分辨率。总之就是按比例的缩放。在上传的时候将三层同时上传,下发的时候SFU会判断整个带宽能否承载下行的数据,如果不能承载便选择低一个层次的分辨率看能否承载,若不能承载,再选择更低层次的,依次下去…
2.根据H264中SVC分层方式,将一路视频分为核心层、扩展层、边缘层,一层比一层清晰(增量累加,各层之间相互依赖),当带宽足够时可以全部下发给客户端,不够时可以选择传输核心层或者核心层+扩展层从而降低下行带宽数量,缓解质量不足问题。
simulcast和SVC不能混用。这两个相比,simulcast的操作更简单一些,实用性更高一些,国内的 声网 便使用的这种方式。SVC更复杂一些,国外的 zoom 、思科 的解决方案便采用的这种方式。
三:流媒体服务器架构和特点
已知的多方通信框架有:Mesh MCU SFU 三种。
其中SFU是目前最优的一种多方通信架构方案,而且这种方案目前已经有比较流行的开源项目:Licode Janus-gateway Mediasoup Medooze
下面简单的对这4种方案进行分析:
(一)Licode架构
Licode 既可以用作SFU 类型的流媒体服务器,也可以用作 MCU 类型的流媒体服务器。一般情况下,它都被用于SFU类型的流媒体服务器。
Licode 不仅仅是一个流媒体通信服务器,而且还是一个包括了媒体通信层、业务层、用户管理等功能的完整系统,并且该系统还支持分布式部署。
Licode 是由 C++ 和 Node.js 语言实现。其中,媒体通信部分由 C++ 语言实现,而信令控制、用户管理、房间管理用 Node.js 实现。它的源码地址为:https://github.com/lynckia/licode 。
下面这张图是 Licode 的整体架构图:
如上图所示,从大的框架上来看,Licode框架被分为2部分:服务端和客户端
1.客户端讲解(简单)
客户端被分为了3个部分:ClientAPP(信令通讯,比如房间操作、媒体协商...)、Eriza.js(对房间相应逻辑进行控制)、WebRTC(抓取音视频数据分享和展示)
2.服务端讲解
通过上图可以看出,Licode 从功能层面来讲分成三部分,即 Nuve 、ErizoController 和 ErizoAgent 三部分,它们之间通过消息队列进行通信。
- Nuve 是一个 Web 服务,用于管理用户、房间、产生 token 以及房间的均衡负载等相关工作。它使用 MongoDB 存储房间和 token 信息,但不存储用户信息。
- ErizoController,用于管理控制,信令和非音视频数据都通过它接收。它通过消息队列与 Nuve 进行通信,也就是说 Nuve 可以通过消息队列对 ErizoController 进行控制。
- ErizoAgent,用于音视频流媒体数据的传输,可以分布式布署。ErizoAgent 与 ErizoController 的通信也是通过消息队列,信令消息通过 ErizoController 接收到后,再通过消息队列发给 ErizoAgent,从而实现对 ErizoAgent 进行控制。
通过上面的描述,可以知道 Licode 不仅仅是一个 SFU 流媒体服务器,它还包括了与流媒体相关的业务管理系统、信令系统、流媒体服务器以及客户端 SDK 等等,可以说它是一个比较完善的产品。
Licode缺点:
- 在 Linux 下目前只支持 Ubuntu 14.04 版本,在其他版本上很难编译通过。(现在不清楚,毕竟已经过去一段时间)
- Licode 不仅包括了 SFU,而且包括了 MCU,所以它的代码结构比较重,学习和掌握它要花不少的时间。
- Licode 的性能一般, 如果你把流媒体服务器的性能排在第一位的话,那么 Licode 就不是特别理想的 SFU 流媒体服务器了。
(二)Janus SFU架构
Janus 是一个非常有名的 WebRTC 流媒体服务器,它是以 Linux 风格编写的服务程序,采用 C 语言实现,支持 Linux/MacOS 下编译、部署,但不支持 Windows 环境。
它是一个开源项目,其源码的编译、安装非常简单,只要按 GitHub 上的说明操作即可。源码及编译手册的地址为:https://github.com/meetecho/janus-gateway 。
Janus 的部署也十分简单,具体步骤详见文档,地址为:https://janus.conf.meetecho.com/docs/deploy.html 。
Janus 的架构组成:
流程如Medooze架构图流程一致!!(后面)
上面这张图是 Janus 的整体架构图。Janus 可以被分为以下三部分: Janus CORE、Janus Plugin 以及信令接口组成
1.信令接口,Janus 支持的信令协议比较多,如 HTTP、WebSocket、RabbitMQ 等。这些信令协议使得 Janus 具有非常好的接入性。因为很多公司喜欢各种不同的协议,如有的喜欢 websocket,有的喜欢http,proto等。因此 Janus 在信令接入方面具有很大的优势。
2.Janus Plugin,Janus 的业务管理是按照 Plugin 的方式管理的,因此你可以在Janus中根据自己的需要实现自己的业务插件。实际上,对于一般性的需求 Janus 已经相关的插件。如:
- SIP:用于与传统电话设备对接,这个插件使得 Janus 成了 SIP 用户的代理,从而容许 WebRTC 终端在 SIP 服务器(如 Asterisk)上注册,并向 SIP 服务器发送或接收音视频流。
- TextRoom:该插件使用 DataChannel 实现了一个文本聊天室应用。
- Streaming:用于广播,也就是我们通常所说的一人共享,多人观看的直播模式;它容许 WebRTC 终端观看 / 收听由其余工具生成的预先录制的文件或媒体。
- VideoRoom:它实现了视频会议的 SFU 服务,实际就是一个音 / 视频路由器,用于多人音视频互动,像音视频会议,在线教育都可以通过该插件来实现。
- VideoCall:这是一个简单的视频呼叫的应用,容许两个 WebRTC 终端相互通讯,用于 1:1 的音视频通信。它与 WebRTC 官网的例子类似(https://apprtc.appspot.com),不一样点是这个插件要通过服务端进行音视频流中转,而 WebRTC 官网的例子走的是 P2P 直连。
- RecordPlay:该插件有两个功能,一是将发送给 WebRTC 的数据录制下来,二是能够经过 WebRTC 进行回放。
3.Janus Core 是Janus的核心,其作用是处理流的转发,各种协议的接入。以浏览器为例,要想让浏览器接入到 WebRTC 流媒体服务器上,那流媒体服务器必须要支持 STUN、DTLS、SRTP、ICE 等协议。而 Janus Core 就是专门做这事儿的。
Janus 的整体架构:
Janus 分为两层,即应用层和传输层
插件层又称为应用层,每一个应用都是一个插件,能够根据用户的须要动态地加载或卸载掉某个应用。插件式架构方案是很是棒的一种设计方案,灵活、易扩展、容错性强,尤为适用于业务比较复杂的业务,但缺点是实现复杂,成本比较高。
传输层包括媒体数据传输和信令传输。
- 媒体数据传输层主要实现了 WebRTC 中须要有流媒体协议及其相关协议,如 DTLS 协议、ICE 协议、SDP 协议、RTP 协议、SRTP 协议、SCTP 协议等。
- 信令传输层用于处理 Janus 的各类信令,它支持的传输协议包括 HTTP/HTTPS、WebSocket/WebSockets、NanoMsg、MQTT、PfUnix、RabbitMQ。不过须要注意的是,有些协议是能够经过编译选项来控制是否安装的,也就是说这些协议并非默认所有安装的。另外,Janus 全部信令的格式都是采用 Json 格式。
Janus 总体架构采用了插件的方案,这种架构方案很是优秀,用户能够根据本身的须要很是方便地在上面编写本身的应用程序。并且它目前支持的功能很是多,好比支持 SIP、 RTSP、音视频文件播放、录制等等,因此在与其余系统的融合性上有很是大的优点。另外,它底层的代码是由 C 语言编写的,性能也很是强劲。Janus 的开发、部署手册也很是完善,所以它是一个很是棒的开源项目。因此,它的架构设计比较复杂,对于初学者来讲难度较大。
(三)Medooze架构
Medooze 的整体架构与 Mediasoup 类似,不过它的信令处理、业务管理以及媒体数据的转发功能都是放在 Nodejs下进行统一管理的。实际上,这样的管理方式也不会对性能造成什么影响,因为重的媒体流的转发工作仍然是使用的 C++ 在 Nodejs 底层实现的。
Medooze 是一款综合流媒体服务器,它不仅支持 WebRTC 协议栈,还支持很多其他协议,如 RTP、RTMP 等。其源码地址为:https://github.com/medooze/media-server 。
Medooze架构流程图:
Medooze架构模型如图中所示:使用NodeJs实现整个服务(信令交互),在NodeJs下面使用MediaServer C++作为底层服务器进行使用(实现媒体流传输)
1.浏览器从服务器获取客户端代码,通过V8引擎,启动底层WebRTC 2.浏览器与服务端的MediaServer JS进行信令交互、房间操作、媒体协商 3.数据传输WebRTC到MediaServer C++
多客户端流程一致!!!
Medooze整体架构图:
Medooze 的核心层:
从大的方面来说,Medooze 支持 RTP/RTCP、SRTP/SRCP 等相关协议,从而能够实现与 WebRTC 终端进行互联。 除此以外,Medooze 还能够接入 RTP 流、RTMP 流等,所以你可使用 GStreamer/FFmpeg 向 Medooze 推流,这样进入到同一个房间的其余 WebRTC 终端就能够看到 / 听到由 GStream/FFmpeg 推送上来的音视频流了。 另外,Medooze 还支持录制功能,即上图中的 Recorder 模块的做用,能够经过它将房间内的音视频流录制下来,以便后期回放。 为了提升多方通讯的质量,Medooze 在音视频的内容上以及网络传输的质量上都作了大量优化。
Medooze 的控制逻辑层:
是经过 Node.js 实现的,Medooze 经过 Node.js 对外提供了完整的控制逻辑操做相关的 API,经过这些 API 你能够很容易的控制 Medooze 的行为了。
Medooze 的业务功能要比 Mediasoup 强大,像服务端录制、推流这些 Mediasoup 没有的功能它都支持。但它性能没有 Mediasoup 做的极致,在Medooze的底层使用的poll来处理I/O事件,poll与epoll性能相差距大。除此之外,Medooze的业务逻辑也没有Mediasoup简洁;另外与 Janus 相比,它的业务管理不如 Janus 灵活,Janus 的插件管理方式显然要优于 Medooze 和 mediasoup。
但总的来说,Medooze还是一款非常不错的 WebRTC 流媒体服务器。虽然有一些小的暇疵,但还是非常不错的一款流媒体服务器。
(四)Mediasoup架构
Mediasoup 是推出时间不长的 WebRTC 流媒体服务器开源库,其地址为:https://github.com/versatica/mediasoup/ 。
下图是Mediasoup整体架构图:
流程如Medooze一致(前面)!
通过该图我们可以知道 Mediasoup 流媒体服务器是由 Nodejs 和 Mediasoup(C++) 两部分组成。
- Nodejs,负责 Mediasoup 的信令接收与业务管理。如创建/消毁房间,创建/关闭生产者,创建/关闭消费者等。
- Mediasoup(C++),这是一个单独的程序,但该程序无法直接启动。因为它在内部会判断是否是 Nodejs 将它启动起来了。只有在Nodejs 的 Mediasoup 管理模块加载之后,再将 Mediasoup(C++)启动起来,这样它才能正常工作。
- Nodejs 与 Mediasoup之间通过管道进行通信。
在众多的 WebRTC 流媒体服务器中,Mediasoup 可以说是性能最优秀的WebRTC流媒体服务器。它使用 C++ 作为开发语言,底层使用 libuv 处理 I/O 事件。
有很多人对 Nodejs 比较诟病,认为 Nodejs 提拱不了高性能的流媒体服务器。
实际上,如果按照传输的 Nodejs 应用开发出的流媒体服务器肯定是不能胜任这项工作的。但对于 Mediasoup 来讲,它只不过使用 Nodejs 做 信令处理 及 业务的管理 工作,所以它的负担并不重。
对性能要求高的是媒体数据流的转发工作,而这部分工作是由 Mediasoup(C++)部分实现的。
Mediasoup是多进程程序,他会在业务层控制进程的个数,监听系统的CPU核数,会对每一个CPU绑定一个Mediasoup进程
比如说你的服务器是个 8 核的CPU,那么在业务层你就该启动 8 个Mediasoup进程。通过这种方式来达到对 CPU 的充分利用。
Meidasoup多进程图:
- Host(最大的灰色底框)中,包含worker一、worker二、worker3(3个白色框),能够认为是进程。
- 每一个worker中,包含1个或多个router(蓝色的方片花),进程中有1个或多个房间。
- router周围有:音视频生产者(红色的输入)+ 音视频消费者(绿色的输出),每一个房间有多个生产者和消费者。
- producer:一路视频是一个生产者,一路音频也是一个生产者 。
- consumer:一路视频是一个消费者,一路音频也是一个消费者 。
- transport:一个Transport 就只关联一个用户。
Mediasoup中的每个进程称为一个 Worker, 你也可以把它理解为一个节点
,在每个 Worker 中可以有多个 Router。
对于 Router,你站在不同的解度可以有不同的理解。如果你占在应用层的角度,你可以把它理解为一个房间;如果你站在数据流转的角度,可以把它理解为一个路由器,数据通过 路由器
转发给目标用户。
大的绿色箭头下面,有灰色的Transport字体,分为三种类型,即 WebRtcTransport、PlainRtpTransport 和 PipeTransport。
- WebRtcTransport 用于与 WebRTC 类型的客户端进行链接,如浏览器。
- PlainRtpTransport 用于与传统的 RTP 类型的客户端链接,经过该 Transport 能够播放多媒体文件、FFmpeg 的推流等。
- PipeTransport 用于 Router 之间的链接,也就是一个房间中的音视频流经过 PipeTransport 传到另外一个房间。
在每一个 Transport (每一个用户)中能够包括多个 Producer 和 Consumer。
- Producer 表示媒体流的共享者,它又分为两种类型,即音频的共享者和视频的共享者。
- Consumer 表示媒体流的消费者,它也分为两种类型,即音频的消费者和视频的消费者。
Mediasoup 的实现逻辑很是清晰,它不关心上层应用该如何作,只关心底层数据的传输,并将它作到极致。
(五)如何选择SFU(选择合适的)
实现语言:
1.Meooze、Mediasoup、Licode 这三个流媒体服务器的媒体通讯部分都是由 C++ 实现的,而控制逻辑是经过 Node.js 实现,所以若是你是 C++ 开发人员,且有 JavaScript 技术背景,那么你就应该在这三种流媒体服务器之间选择,由于这样更容易入门。
2.而 Janus-gateway 是彻底经过 C 语言实现的,服务部署是传统的 Linux 风格,所以若是你是 Linux/C 开发者,则应该选择 Janus 做为你的流媒体服务器。
系统特色:
1.像 Licode 是一个完整的系统,支持分布式集群部署,因此系统相对复杂,学习周期要长一些。它能够直接布署在生产环境,可是二次开发的灵活性不够。
2.Janus-gateway 是一个独立的服务,支持的信令协议很丰富,并且支持插件开发,易扩展,对于 Linux/C 背景的开发者是很不错的选择。
3.Medooze 和 Mediasoup 都是流媒体服务器库,对于须要将流媒体服务器集成到本身产品中的开发者来讲,应该选择它们。
性能特色:
1.Licode、Meooze、Mediasoup、Janus-gateway 单台服务均可以支持 500 方参会人,因此它们的性能都仍是不错的。
2.相对来讲,Licode 的性能与其余流媒体服务器相比要低一些;
3.Medooze 因为没有使用 epoll 来处理异步 IO 事件,因此性能也受到一些影响。
不过总的来讲,它们在 500 方的容量下,视频质量均可以获得很好的保证,延迟在 100ms 左右。