音视频开发学习笔记（二）----视频基础概念

zoukankan html css js c++ java

音视频开发学习笔记（二）----视频基础概念

文章目录
1.图像的表示方式--RGB
2.视频的表示方式--YUV
3.视频编码
3.1 压缩方式
3.2 编码标准
3.2.1 MPEG
3.2.2 H.264
3.3 编码概念
3.3.1 IPB帧
3.3.2 PTS与DTS
3.3.2 GOP的概念
1.图像的表示方式–RGB
我们都知道视频都是由图片组成的，任何一个图像都可以由RGB组成，凡是渲染到屏幕上的东西，都要转换为RGB的表示形式。当屏幕要显示某篇文字或者某幅图像时，就会把这幅图像的每一个像素点的RGB通道分别对应的屏幕位置上的子像素点绘制到屏幕上，从而显示整个图像，而每个像素点都由三个子像素点组成。那么像素里的子像素又改如何表示呢？主要有以下两种：

浮点表示：
取值范围为0.0～1.0，比如，在OpenGL ES中对每一个子像素点的表示使用的就是这种表达方式。
整数表示：
取值范围为0～255或者00～FF，8个比特表示一个子像素，32个比特表示一个像素，这就是类似于某些平台上表示图像格式的RGBA_8888数据格式。比如，Android平台上RGB_565的表示方法为16比特模式表示一个像素，R用5个比特来表示，G用6个比特来表示，B用5个比特来表示。
对于一幅图像，一般使用整数表示方法来进行描述。

每一张图像的裸数据（bitmap 位图）都是很大的。对于图像的裸数据来讲，直接在网络上进行传输也是不太可能的，所以就有了图像的压缩格式，比如JPEG压缩：JPEG是静态图像压缩标准，由ISO制定。JPEG图像压缩算法在提供良好的压缩性能的同时，具有较好的重建质量。这种算法被广泛应用于图像处理领域，当然其也是一种有损压缩。但是，这种压缩不能直接应用于视频压缩，因为对于视频来讲，还有一个时域上的因素需要考虑，也就是说，不仅仅要考虑帧内编码，还要考虑帧间编码。视频采用的是更成熟的算法。

2.视频的表示方式–YUV
对于视频帧的裸数据表示，其实更多的是YUV数据格式的表示，YUV主要应用于优化彩色视频信号的传输，使其向后兼容老式黑白电视。与RGB视频信号传输相比，它最大的优点在于只需要占用极少的频宽（RGB要求三个独立的视频信号同时传输）。其中 “Y”表示明亮度（Luminance或Luma），也称灰阶值；而 “U”和“V”表示的则是色度（Chrominance或Chroma），它们的作用是描述影像的色彩及饱和度，用于指定像素的颜色。“亮度”是透过RGB输入信号来建立的，方法是将RGB信号的特定部分叠加到一起。“色度”则定义了颜色的两个方面——色调与饱和度，分别用Cr和Cb来表示。其中，Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差异，而Cb反映的则是RGB输入信号蓝色部分与RGB信号亮度值之间的差异。

之所以采用YUV色彩空间，是因为它的亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量而没有U、V分量，那么这样表示的图像就是黑白灰度图像。彩色电视采用YUV空间正是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题，使黑白电视机也能接收彩色电视信号，最常用的表示形式是Y、U、V都使用8个字节来表示，所以取值范围就是0～255。，在传输过程中，为了防止信号变动造成过载，Y的取值范围通常都是16～235，UV的取值范围都是16～240。

YUV最常用的采样格式是4：2：0，4：2：0并不意味着只有Y、Cb而没有Cr分量。它指的是对每行扫描线来说，只有一种色度分量是以2：1的抽样率来存储的。相邻的扫描行存储着不同的色度分量，也就是说，如果某一行是4：2：0，那么其下一行就是4：0：2，再下一行是4：2：0，以此类推。对于每个色度分量来说，水平方向和竖直方向的抽样率都是2：1，所以可以说色度的抽样率是4：1。

3.视频编码
视频压缩也是通过去除冗余信息来进行压缩的。相较于音频数据，视频数据有极强的相关性，也就是说有大量的冗余信息，包括空间上(空域)的冗余信息和时间上(时域)的冗余信息。压缩技术就是将数据中的冗余信息去掉（去除数据之间的相关性），压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。

3.1 压缩方式
去时域：

使用帧间编码技术可以去除时间上的冗余信息，具体包括以下几个部分：

运动补偿：
运动补偿是通过先前的局部图像来预测、补偿当前的局部图像，它是减少帧序列冗余信息的有效方法。

运动表示：
不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。

运动估计：
运动估计是从视频序列中抽取运动信息的一整套技术。

使用帧内编码技术可以去除空间上的冗余信息。

去空域：

主要使用帧内编码技术和熵编码技术：

变换编码
帧内图像和预测差分信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间，使其相关性下降，数据冗余度减小。

量化编码
经过变换编码后，产生一批变换系数，对这些系数进行量化，使编码器的输出达到一定的位率。这一过程导致精度的降低。

熵编码
熵编码是无损编码。它对变换、量化后得到的系数和运动信息，进行进一步的压缩。

3.2 编码标准
3.2.1 MPEG
MPEG（Motion JPEG）编码是由ISO也制定的视频编码标准。MPEG算法是适用于动态视频的压缩算法，它除了对单幅图像进行编码外，还利用图像序列中的相关原则去除冗余，这样可以大大提高视频的压缩比。截至目前，MPEG的版本一直在不断更新中，主要包括这样几个版本：Mpeg1（用于VCD）、Mpeg2（用于DVD）、Mpeg4 AVC（现在流媒体使用最多的就是它了）。

3.2.2 H.264
相比较于ISO制定的MPEG视频压缩标准，ITU-T制定的H.261、H.262、H.263、H.264一系列视频编码标准是一套单独的体系。其中，H.264集中了以往标准的所有优点，并吸取了以往标准的经验，采用的是简洁设计，这使得它比Mpeg4更容易推广。现在使用最多的就是H.264标准，H.264创造了多参考帧、多块类型、整数变换、帧内预测等新的压缩技术，使用了更精细的分像素运动矢量（1/4、1/8）和新一代的环路滤波器，这使得压缩性能得到大大提高，系统也变得更加完善。

3.3 编码概念
3.3.1 IPB帧
视频压缩中，每帧都代表着一幅静止的图像。而在进行实际压缩时，会采取各种算法以减少数据的容量，其中IPB帧就是最常见的一种。

I帧：
帧内编码帧（intra picture），I帧通常是每个GOP（MPEG所使用的一种视频压缩技术）的第一个帧，经过适度地压缩，作为随机访问的参考点，可以当成静态图像。I帧可以看作一个图像经过压缩后的产物，I帧压缩可以得到6：1的压缩比而不会产生任何可觉察的模糊现象。I帧压缩可去掉视频的空间冗余信息，P帧和B帧是为了去掉时间冗余信息。

P帧：
前向预测编码帧（predictive-frame），通过将图像序列中前面已编码帧的时间冗余信息充分去除来压缩传输数据量的编码图像，也称为预测帧。

B帧：
双向预测内插编码帧（bi-directional interpolated prediction frame），既考虑源图像序列前面的已编码帧，又顾及源图像序列后面的已编码帧之间的时间冗余信息，来压缩传输数据量的编码图像，也称为双向预测帧。

基于上面的定义，我们可以从解码的角度来理解IPB帧。

I帧自身可以通过视频解压算法解压成一张单独的完整视频画面，所以I帧去掉的是视频帧在空间维度上的冗余信息。
P帧需要参考其前面的一个I帧或者P帧来解码成一张完整的视频画面。
B帧则需要参考其前一个I帧或者P帧及其后面的一个P帧来生成一张完整的视频画面，所以P帧与B帧去掉的是视频帧在时间维度上的冗余信息。
IDR帧与I帧区别

在H264的概念中有一个帧称为IDR帧，那么IDR帧与I帧的区别是什么呢？因为H264采用了多帧预测，所以I帧之后的P帧有可能会参考I帧之前的帧，这就使得在随机访问的时候不能以找到I帧作为参考条件，因为即使找到I帧，I帧之后的帧还是有可能解析不出来，而IDR帧就是一种特殊的I帧，即这一帧之后的所有参考帧只会参考到这个IDR帧，而不会再参考前面的帧。在解码器中，一旦收到一个IDR帧，就会立即清理参考帧缓冲区，并将IDR帧作为被参考的帧。

3.3.2 PTS与DTS
DTS主要用于视频的解码，PTS主要用于在解码阶段进行视频的同步和输出。在没有B帧的情况下，DTS和PTS的输出顺序是一样的。因为B帧打乱了解码和显示的顺序，所以一旦存在B帧，PTS与DTS势必就会不同。这里先简单介绍一下FFmpeg中使用的PTS和DTS的概念，FFmpeg中使AVPacket结构体来描述解码前或编码后的压缩数据，用AVFrame结构体来描述解码后或编码前的原始数据。对于视频来说，AVFrame就是视频的一帧图像，这帧图像什么时候显示给用户，取决于它的PTS。DTS是AVPacket里的一个成员，表示该压缩包应该在什么时候被解码，如果视频里各帧的编码是按输入顺序（显示顺序）依次进行的，那么解码和显示时间应该是一致的，但是事实上，在大多数编解码标准（如H.264或HEVC）中，编码顺序和输入顺序并不一致，于是才会需要PTS和DTS这两种不同的时间戳。

3.3.2 GOP的概念
两个I帧之间形成的一组图片，就是GOP（Group Of Picture）的概念。通常在为编码器设置参数的时候，必须要设置gop_size的值，其代表的是两个I帧之间的帧数目。前面已经讲解过，一个GOP中容量最大的帧就是I帧，所以相对来讲，gop_size设置得越大，整个画面的质量就会越好，但是在解码端必须从接收到的第一个I帧开始才可以正确解码出原始图像，否则会无法正确解码（这也是前面提到的I帧可以作为随机访问的帧）。在提高视频质量的技巧中，还有个技巧是多使用B帧，一般来说，I的压缩率是7（与JPG差不多），P是20，B可以达到50，可见使用B帧能节省大量空间，节省出来的空间可以用来更多地保存I帧，这样就能在相同的码率下提供更好的画质。所以我们要根据不同的业务场景，适当地设置gop_size的大小，以得到更高质量的视频。

可以结合IPB帧和下图，更好地理解PTS与DTS的概念。

---------------------
作者：铁掌码上飘
来源：CSDN
原文：https://blog.csdn.net/langlitaojin/article/details/88557830
版权声明：本文为博主原创文章，转载请附上博文链接！

查看全文

相关阅读:
【matlab】meshgrid生成网格原理1
【Matlab】matlab与matplotlib作图比较
 【信号、图像、Matlab】如何得到高斯滤波器的整数模板
 【GPS】如何理解轨道倾角大于90
【Matlab】图像裁剪函数imcrop的原点、长度、宽度问题
 【Matlab】函数imread的返回值
 【GPS】批量将d文件转换为o文件
 【GPS】d文件转换为o文件
 【GPS】IGS数据下载
 [ubuntu]截图快捷键

原文地址：https://www.cnblogs.com/wei-chen-linux/p/11098093.html