音视频基础（二）下：编码之h264解析①

上篇我们分析了压缩编码的两种类型：无损压缩和有损压缩。并且介绍了使用ffmpeg将PCM编码成AAC的步骤以及可配置项。上篇文章由于篇幅以及能力问题，没有详细介绍AAC解码的过程。

上篇地址：juejin.cn/post/726478…

本篇将介绍H264这一编码格式的具体压缩编码过程，以及如何解码h264格式为y4m（即原始yuv数据）。

1 帧内压缩

帧内压缩，实际上就是图像压缩。H264对于图像压缩的步骤如下：

1.1 划分宏块和子块

宏块（MacroBlock）是一个像素组，在h264中为一个 16 * 16（或者 8 * 8 ）的像素组。

划分好宏块之后，会计算宏块中的像素值，如果宏块中像素值差别较大，会划分子块。

子块的大小非常灵活，可以是(4,8,16) * (4,8,16)的任意结果，子块的作用就是让一个块中的像素值相对统一

如下面这个宏块，可以进一步划分为这样的子块：

1.2 帧内预测&残差计算

图片中像素的分布一般是有规律的，我们甚至可以用几种模式大致的匹配像素分布的样子，这就是帧内预测的原理。

对于h264来说，它有三种预测方式：

预测方式

1.对细节比较多的图片，也就是划分了子块的图片，进行 4*4的亮度块预测

预测实际上就是根据周围的亮度信息预测这个块中的亮度信息

图片转存失败，建议将图片保存下来直接上传

2.对比较平坦的图片，也就是只有宏块的图片，进行 16 * 16的亮度快预测：

图片转存失败，建议将图片保存下来直接上传

3.对于色度，预测方法同16*16亮度块预测中的4种，只不过块大小是8 * 8

预测模式编码

如果把所有块都一个一个进行预测，很明显计算量比较大，所以h264可以进行预测模式编码，简单的来说就是 根据周边块的预测模式决定当前块的预测模式

图片转存失败，建议将图片保存下来直接上传

这样就可以减少预测计算量，同时使预测结果相对一致。

残差计算

很明显，虽然h264有众多的预测模式，但是现实中的图片肯定与预测模式多少有所差别：

所以我们还需要计算 残差：原始图像和预测图像的差别，这样我们就得到了残差图（residual picture）。在存储时，我们将残差图和预测模式信息存储起来，这样解码时就可还原成原图了。

Prediction Mode Info + Residual picture = Compression ≈ Original Picture

1.3 离散余弦变换（DCT）

我们得到了残差图，但是残差图实际上也是很大的一张图片，我们现在的压缩比还不是很高。

所以我们可以用离散余弦变换对残差图进行进一步处理。

DCT实际上是原始变换信号是实偶函数的离散傅里叶变换（DFT），作用就是在保存较好的频域能量聚集度的同时尽可能压缩图片，本文不做过多介绍，有兴趣请查看详解离散余弦变换（DCT)

处理结果如下：

1.4 量化

H.264采用标量量化技术，它将每个图像样点编码映射成较小的数值。一般标量量化器的原理为：

F Q = r o u n d ( y / Q P )

其中，y 为输入样本点编码，QP 为量化步长，FQ 为 y 的量化值，round()为取整函数（其输出为与输入实数最近的整数）

量化步长 QP 决定量化器的编码压缩率及图像精度。如果 QP 比较大，则量化值 FQ 动态范围较小，其相应的编码长度较小，数据压缩率高但会损失较多的图像细节信息；

简单的来说，量化就是进一步的压缩图片，虽然代价是进一步丢失图像细节信息

1.5 熵编码

前面量化得到的数据还可以进一步进行压缩，因为前面的压缩实际上都是 针对图片这一特质进行压缩的，无论是预测模式还是DCT变换，都是针对诸如亮度分布等信息进行压缩，我们还可以基于 数据自身的统计特征 再进行一次压缩，这就是 熵编码。

实际上就是在信息熵极限范围内，想办法提高信息熵。由于没有突破信息熵极限，所以不会市镇，因而是无损压缩。

H264中使用的熵编码是算数编码，具体来说可能是

上下文自适应的变长编码（Context-based Adaptive Variable-Length Coding，CAVLC）

或者

上下文自适应的二进制算术编码（Context-based Adaptive Binary Arithmetic Coding，CABAC）

这类编码可以说是前文提到的哈夫曼编码的升级，这里同样不做具体介绍，有兴趣可以参考算术编码

在熵编码结束后，我们终于成功实现了帧内压缩！

我们可以简单的概括一下： 帧内压缩 = 帧内预测 + 变换 + 量化 + 熵编码

实际上帧间压缩只是换了预测的过程，后面的不变。这里为了行文完整把后面三步提到帧内压缩中介绍，下面帧间压缩不再重复

2 帧间压缩

2.1 分组

一般来说，视频的帧数都大于物体运动变化的速度。比方说在一个台球赛的30帧的视频中，很可能1秒钟内只有白球在每帧进行缓慢移动。其他都不变。

这意味着我们实际上可以在一定时间内只保留一个帧的数据，其他的帧根据这个帧进行计算，我们可以将这个时间范围内的帧以及其他计算结果称为一个 GOP(Group Of Pictures)。那么怎么确定GOP的范围呢？H264的算法是：在相邻几幅图像画面中，一般有差别的像素只有10%以内的点,亮度差值变化不超过2%，而色度差值的变化只有1%以内，我们认为这样的图可以分到一组

在这样一组帧中，经过编码后，我们只保留第一帧的完整数据，其它帧都通过参考上一帧计算出来。这个完整帧被称为 I帧，而其他帧则是预测编码帧，不存储完整信息，需要根据别的帧计算。