一、前言

1. 关于声音的浪漫传说

历史浩瀚如烟海，人类文明走了几千年来到了今天。在这几千年里，有各种各样美丽的传说,在那些遥远的传说里，其中就不乏与声音有关的传说:

《梁山伯与祝英台》
- 这是中国另一个著名的爱情传说，也被称为《梁祝》。故事中，梁山伯是一个贫穷的书生，而祝英台是富有的商人之女。
- 他们相爱，但由于家庭阻碍无法在一起。最终，祝英台被迫与他人结婚，梁山伯因思念之情而过世。据说，悲伤的祝英台站在梁山伯的坟前唱起了动人的《临行秋思》歌，整个山谷都因此回荡着她的声音。
《白蛇传》
- 这是中国著名的爱情传说之一，讲述了一对相爱的蛇精白蛇和许仙的故事。
- 在故事中，白蛇因为爱上了人类许仙，通过修炼成人形与他相遇。
- 其中一个浪漫的情节是，白蛇在一个雨天用歌声驱散了滔滔大雨，保护了许仙和村民们。
千里眼和顺风耳
…

从远古时期，人类就梦想着有一天可以听到、看到千里之外的声音和景象，当时的人们认为只有神仙才能做到。
这些浪漫的故事，无一不暗指人们对大自然鬼斧神工的惊叹，对美好便捷生活的向往和憧憬。

2. 关于声音的科技发展

其实在这漫长的时间里，真正推动人类大跨度进步的时期只是最近几百年。
到了第二次工业革命期间的 1876 年，贝尔电话的发明，使人类可以听到千里之外声音的梦想终于成真。此后，音视频技术不断发展。

一方面
- 视频压缩技术从 H261 到 H264，再到现在的 H265 及未来不久将出现的 AV1，视频压缩率越来越高；
- 音频压缩技术也从电话使用的 G.711、G.722 等窄带音频压缩技术，发展到现代的 AAC、OPUS 等宽带音频压缩技术
另一方面
- 从中国 3G 网络正式商用开始，移动网络也发生了翻天覆地的变化
- 从 3G 到 4G ，再到马上要落地的 5G，移动网络的带宽和质量越来越高，为音视频数据传输打下了坚实的基础。

3. 移动音视频技术发展

近几年,随着移动互联网的逐渐成熟,移动音视频技术也得到了迅猛发展,不断成熟。现在的音视频技术已经可以用于多种场景，如音视频会议、在线教育（大班课、小班课、1 对 1）、即时通讯等

两个关键性问题
- 音频技术的现在与未来音频技术发展到今天，可以说已经非常成熟了，如我们上面所讲的，H264/H265、VP8/VP9 以及后面的 AV1 编解码器，解决了视频压缩率的问题；
- 而 5G 的商用，解决了带宽的问题
- 这两个问题解决后，使得各行各业都开始使用音视频技术以实现更佳的用户体验，如
  - 音视频会议、在线教育、远程医疗、娱乐游戏等
  - 尤其是 2011 年 Google 推出 WebRTC 技术后，大大降低了音视频技术的门槛。
    - 有了 WebRTC，你就不必自己去实现回音消除算法了；
    - 有了 WebRTC ，你也不必自己去实现各种音视频的编解码器了；
    - 有了 WebRTC，你更不必去考虑跨平台的问题了。
    - 因此，可以说 WebRTC 的出现大大加速了音视频技术的应用与推广。
  - WebRTC 有个特别有诱惑力的愿景:可以在浏览器上快速开发出各种音视频应用
音视频技术前景
- 可以预见，未来音视频技术将会作为一种基础技术应用到更广泛的场景中。
- 它可以与 AR/VR 结合，让我们在远端体验虚拟与现实，如虚拟服装体验；
- 也可以与人工智能结合用于提高服务质量，如用于教学上帮助老师提高教学质量；
- 它还可以与物联网结合，用在自动驾驶、家庭办公等领域。

4. 学习音视频技术需要扎实功底

然而，音视频技术本身纷繁、复杂，需要很深的专业及技术背景。

举个简单的例子，当进行音视频互动时，经常会听到自己的回音，这是什么原因引起的呢？
再比如说，用户进入教室后经常看到老师的视频卡顿、花屏，这是什么原因造成的？又该如何解决呢？

如果没有很深的背景知识，对音视频编解码原理不清楚，对音视频处理流程不了解的话，我们是根本无法解决上述问题的。
另外，如果想开发一款音视频产品，不仅需要有最基础的音视频知识（如音视频的编码、解码），往往还需要多层级的技术栈，涉及:

移动端开发、PC 端开发
各种协议规范、网络协议、socket 开发等。
所以，要想成为一员合格的音视频开发工程师，我们需要对各领域的知识都有一些掌握才行

二、移动通信技术的发展

众所周知，随着移动通信技术的发展，移动设备的网速是越来越快了，网民的生活也是越来越丰富多彩。

速度对比

功能对比

1. 1G：语音时代

1G即第1代移动通信技术，仅支持语音通话。那是一个属于大哥大的时代，一般人可用不起。

大哥大

大哥大拿着大哥大

2. 2G：文字时代

2G时代，支持了短信和彩信技术，那时基本上是诺基亚的天下。手机的下半部分是硬键盘，上半部分是屏幕。对比现在的智能手机，这屏幕真是小得可怜。

诺基亚

从2G开始，手机就可以上网了，不过网速、流量都非常有限，那时的移动应用都是以文字为主，不会有太多的图片，更加不会有视频。

文字版应用

甚至有些游戏都做成了纯文字版的，比如QQ农场（俗称：偷菜）。

手机版QQ农场

只有在电脑上才能玩完整版的QQ农场。

电脑版QQ农场

3. 3G：图片时代

3G时代，开始流行全触摸屏的手机（Android手机、iPhone），硬键盘被软键盘取代，极大地增加了手机的屏幕面积。有趣的是，当初苹果公司发布第1代iPhone时，有不少诺基亚高层公开嘲笑iPhone：一款没有键盘的手机能有怎么样？后来，诺基亚的手机业务一落千丈，最终被微软收购。

iPhone

对比2G，3G的网速进一步提升、流量进一步增多。手机已经能快速处理图片、音频、视频等多媒体，移动应用中开始出现大量丰富多彩的图片，极大地增强了用户体验，微博等社交应用开始流行。3G时代算是当今移动互联网的雏形。

新浪微博

4. 4G：视频时代

4G时代，网速进一步提升，流量开始多到用不完，WIFI的覆盖率也非常广，极大地改变了人们的生活方式，移动支付、O2O、共享经济等应运而生。

移动支付

在线教育、短视频、直播、VLog等日益火爆。

各种短视频应用

每个人都可以随时随地通过视频记录自己的生活。

拍短视频

每个人都可以随时随地进行直播。

5. 5G：新的时代

5G时代，可能是真正实现万物互联的时代，音视频技术的应用范围必然也会越来越广，音视频开发人才将会是绝大部分互联网公司的刚需。但是，音视频开发涉及到的技术细节实在是太多了，随便一个技术分支的体系都是非常庞大的，比如OpenGL、FFmpeg、WebRTC等。因此，要想学好音视频开发，那就千万不要浮躁，一点一点去把它攻克。

三、声音的本质

关于声音的知识，记得没错的话，是属于初中物理的内容。为了学好音视频，我们有必要重新温习一下声音的相关知识。需要提醒的是：本文的GIF动态图比较多，建议选择在网络较好的环境中阅读。

1. 产生

声音（Sound），是由物体的振动产生的。一切正在发声的物体都在振动。

我们说话的时候，是声带在振动。一边说话一边用手捂住喉咙，就能感受到声带的振动

剖面图

蜜蜂飞过时发出嗡嗡嗡的声音，是翅膀在快速振动

2. 声波

2.1 本质

关于声音的本质，推荐一份不错的参考资料：可汗学院的《Introduction to sound》。

以扬声器为例子，扬声器发声时是振膜在振动。下图是放了块小纸片到振膜上，振膜的振动导致小纸片“跳起了街舞”。

扬声器

振膜的振动会导致振膜旁边的空气振动，然后导致更大范围的空气跟着一起振动，最后耳朵旁边的空气也开始振动。

空气振动

空气的振动带来了动能（Kinetic Energy），能量传入了耳朵中，最后就听到了声音。

所以，扬声器可以通过空气来传播能量，而不是传播空气本身。

能量在空气中传播

如果传播的是空气，那么表现出来的形式就不是声音，而是风（Wind）。

声音与波有着相同的关键特征：可以通过介质传播能量，而不是传播介质本身。

因此，我们也把声音称为声波
声音的传播介质可以是气体、液体、固体，比如：2个人面对面交流时，声音是通过空气传播到对方耳中

2.2 疑惑

学到这里，就可以解开一个很多人长期以来的疑惑了：为什么自己录下来的声音和平时说话的声音，听起来会不太一样？

听起来不一样的声音

当自己说话的时候，实际上自己听到了2个声音，分别来自2种不同的传播介质
- 图①：声波 → 空气 → 耳朵
- 图②：声波 → 血肉、骨骼等介质 → 耳朵
录制声音时
- 图③：声波 → 空气 → 录音设备
当听自己录下来的声音时，自己只听到了1个声音
- 图④：声波 → 空气 → 耳朵
所以，平时别人耳中听到的你说话的声音，就是你录音中的声音

2.3 人耳

另外，人耳又是如何听到声音的呢？大概过程是：声源 → 耳廓（收集声波） → 外耳道（传递声波） → 鼓膜（将声波转换成振动） → 听小骨（放大振动） → 耳蜗（将振动转换成电信号） → 听觉神经（传递电信号） → 大脑（形成听觉）

人耳结构

2.4 振幅

如果只关注单个空气分子，可以发现：它来回振动的轨迹，就是一个正弦或余弦函数的曲线图。

单个空气分子

横轴：代表时间。

纵轴：代表空气分子来回振动时产生的位移。

蓝色的中心线：代表该空气分子的未受振动干扰时的位置（平衡位置，Equilibrium Position）。

平衡位置

从平衡位置到最大位移位置之间的距离，叫做振幅（Amplitude）。

2.5 周期

空气分子完全来回振动一次所花费的时间，叫做周期（Period），单位是秒（s）。

一个周期

2.6 频率

物体每秒来回振动的次数，叫做频率（Frequency），也就是周期分之一。

单位是秒分之一（1/s），也称为赫兹（Hz）
比如440Hz代表物体每秒来回振动440次
因此，频率用来表示物体振动的快慢

理论上，人类的发声频率是85Hz ~ 1100Hz，人类只能听见20Hz ~ 20000Hz之间的声音。

低于20Hz的称为：次声波（Infrasound）
高于20000Hz的称为：超声波（Ultrasound）

人和动物的发声和听觉频率

3. 音调

频率越高，音调就越高。

频率高 → 音调高

频率越低，音调就越低。

频率低 → 音调低

通常女生讲话时，声带振动的频率就比较高，因此我们听到的音调就高，有时会有点刺耳，而男生讲话时，声带振动的频率就比较低，因此我们听到的音调就低，显得比较低沉。

4. 响度

当提高声音的响度（音量，大小）时，振动的幅度会变大。

提高音量

我们常用dB（分贝）来描述声音的响度。

分贝	情景
0	刚能听到的声音
15以下	感觉安静
30	耳语的音量大小
40	冰箱的嗡嗡声
60	正常交谈的声音
70	相当于走在闹市区
85	汽车穿梭的马路上
95	摩托车启动声音
100	装修电钻的声音
110	卡拉OK、大声播放MP3的声音
120	飞机起飞时的声音
150	燃放烟花爆竹的声音

5. 音色

5.1 概念

音色（Timbre）是指声音的特色。

不同的声源由于其材料、结构不同，则发出声音的音色也不同
我们之所以能够根据声音区分出不同的乐器、不同的人，都是因为它们的音色不同
不同音色的声音，即使在同一响度和同一音调的情况下，也能让人区分开来

微信的声音登录功能，就是基于不同人不同音色的原理，为每一个人私人定制一把声音锁。

声音锁

5.2 原理

通常声源的振动产生的并不是单一频率的声波，而是由基音和不同频率的泛音组成的复合声音。

当声源的主体振动时会发出一个基音（基本频率，基频，Fundamental Frequency）
同时其余各部分也有复合的声源，这些声源组合产生泛音
泛音（Overtone）其实就是物理学上的谐波（Harmonic）

音调是由基音决定的，而音色主要取决于泛音。

从下图可以看得出来，音色不同，波形也就不同。

不同乐器的波形

下图形象生动地展示了：声音的最终波形是由多个不同的波形组合而成的。

6. 噪音

6.1 物理学角度

从物理学角度上讲，噪音（噪声，Noise），是指声源作无规则振动时发出的声音（频率、强弱变化无规律）。

6。2 环境保护角度

从环境保护角度上讲，凡是妨碍人们正常休息、学习、工作的声音，以及对人们要听的声音产生干扰的声音，都可以称之为噪音。

6.3 影响

长期的噪音可以影响人的身心健康。

噪音可能导致各种不同程度的听力丧失
- 长时间处于85分贝以上的噪音可以影响人的听力
- 响于120分贝的噪音可以使人耳聋
噪音还会提高人体内皮质醇的分泌，进而导致高血压、心脏病和胃溃疡
噪音影响心血管的健康、睡眠的品质、甚至胎儿的发育
噪音所引起的听力损伤、心血管伤害，也会造成生殖能力、睡眠、心理的影响

7. 讨厌的声音

大多数人都无法忍受指甲划过黑板的声音，甚至一想到都会觉得烦躁。

指甲划过黑板

7.1 研究

研究表明：

这种让人讨厌的噪音和婴儿啼哭及人类尖叫的声音有着相同的频率
人耳对2000Hz ~ 4000Hz范围内的声音是难以接受的
而指甲刮黑板声音的特殊之处，就在于它的频率，正好处于2000Hz ~ 4000Hz频段内

大脑中的杏仁核（Amygdala）在听到指甲刮黑板的声音时，会异常兴奋，于是霸道地接管了大脑听觉的任务，向听觉皮层（Auditory Cortex）发出痛苦的信息。听觉皮层是属于大脑皮层（大脑皮质，Cerebral Cortex）的一部分。

杏仁核

7.2 五大人类讨厌的声音

第一：刀子刮玻璃瓶声。
第二：叉子刮玻璃声。
第三：粉笔刮黑板声。
第四：尺子刮玻璃瓶声。
第五：指甲刮黑板声。

四、深入了解音频

我们平时在互联网上听到的声音，都是先经过录制后，再传输到互联网上的。比如歌曲、电影、主播等的声音。

1. PCM

录音的原理可以简单理解为：把声源的振动记录下来，需要时再让某个物体按照记录下来的振动规律去振动，就会产生与原来一样的声音。

如何把声音（声源的振动）记录下来呢？声音属于模拟信号，但更便于计算机处理和存储的是数字信号（二进制编码），所以需要将模拟信号（Analog Signal）转成数字信号（Digital Signal）后进行存储。这一过程，我们可以称之为：音频数字化。

模拟信号与数字信号的比喻

模拟信号与数字信号的转换

将音频数字化的常见技术方案是脉冲编码调制（PCM，Pulse Code Modulation），主要过程是：采样 → 量化 → 编码。

模拟信号转数字信号

1.1 采样

模拟信号的波形是无限光滑的，可以看成由无数个点组成，由于存储空间是相对有限的，数字编码过程中，必须要对波形的点进行采样。采样（Sampling）：每隔一段时间采集一次模拟信号的样本，是一个在时间上将模拟信号离散化（把连续信号转换成离散信号）的过程。

1.1.1 采样率

每秒采集的样本数量，称为采样率（采样频率，采样速率，Sampling Rate）。比如，采样率44.1kHz表示1秒钟采集44100个样本。

1.1.2 采样定理

根据采样定理（奈奎斯特–香农采样定理，Nyquist-Shannon sampling theorem）得知：只有当采样率高于声音信号最高频率的2倍时，才能把采集的声音信号唯一地还原成原来的声音。人耳能够感觉到的最高声音频率为20000Hz，因此为了满足人耳的听觉要求，需要至少每秒进行40000次采样（40kHz采样率）。这就是为什么常见的CD的采样率为44.1kHz。电话、无线对讲机、无线麦克风等的采样率是8kHZ。

1.2 量化

量化（Quantization）：将每一个采样点的样本值数字化。

1.2.1 位深度

位深度（采样精度，采样大小，Bit Depth）：使用多少个二进制位来存储一个采样点的样本值。位深度越高，表示的振幅越精确。常见的CD采用16bit的位深度，能表示65536（2¹⁶）个不同的值。DVD使用24bit的位深度，大多数电话设备使用8bit的位深度。

不同采样率、位深度对比

1.3 编码

编码：将采样和量化后的数字数据转成二进制码流。

1.4 其他概念

1.4.1 声道（Channel）

单声道产生一组声波数据，双声道（立体声）产生两组声波数据。

采样率44.1kHZ、位深度16bit的1分钟立体声PCM数据有多大？

采样率 * 位深度 * 声道数 * 时间
44100 * 16 * 2 * 60 / 8 ≈ 10.34MB

1分钟10.34MB，这对于大部分用户来说是不能接受的。要想在不改变音频时长的前提下，降低音频数据的大小，只有2种方法：降低采样指标、压缩。降低采样指标是不可取的，会导致音频质量下降，用户体验变差，因此专家们研发了各种压缩方案。

1.4.2 比特率

比特率（Bit Rate），指单位时间内传输或处理的比特数量，单位是：比特每秒（bit/s或bps），还有：千比特每秒（Kbit/s或Kbps）、兆比特每秒（Mbit/s或Mbps）、吉比特每秒（Gbit/s或Gbps）、太比特每秒（Tbit/s或Tbps）。

采样率44.1kHZ、位深度16bit的立体声PCM数据的比特率是多少？

采样率 * 位深度 * 声道数
44100 * 16 * 2 = 1411.2Kbps

通常，采样率、位深度越高，数字化音频的质量就越好。从比特率的计算公式可以看得出来：比特率越高，数字化音频的质量就越好。

1.4.3 信噪比

信噪比（Signal-to-noise ratio，SNR，S/N，讯噪比），指信号与噪声的比例，用于比较所需信号的强度与背景噪声的强度，以分贝（dB）为单位。

位深度限制了信噪比的最大值，它们的关系如下表所示。

位深度	信噪比
4	24.08
8	48.16
11	66.22
12	72.24
16	96.33
18	108.37
20	120.41
24	144.49
32	192.66
48	288.99
64	385.32

2. 音频的编码与解码

2.1 编码（Encode）

PCM数据可以理解为是：未经压缩的原始音频数据，体积比较大，为了更便于存储和传输，一般都会使用某种音频编码对它进行编码压缩，然后再存成某种音频文件格式。

压缩分为无损压缩和有损压缩。

无损压缩
- 解压后可以完全还原出原始数据
- 压缩比小，体积大
有损压缩
- 解压后不能完全还原出原始数据，会丢失一部分信息
- 压缩比大，体积小
- 压缩比越大，丢失的信息就越多，还原后的信号失真就会越大
- 一般是通过舍弃原始数据中对人类听觉不重要的部分，达成压缩成较小文件的目的
压缩比 = 未压缩大小 / 压缩后大小

2.2 解码（Decode）

当需要播放音频时，得先解码（解压缩）出PCM数据，然后再进行播放。

3. 常见的音频编码和文件格式

需要注意的是：音频文件格式并不等于音频编码。比如：

WAV只是一种文件格式，并不是一种编码
FLAC既是一种文件格式，又是一种编码

下面对常见的音频编码和文件格式做一个简介，以后有需要时再进行详细介绍。

名称	无损压缩	文件扩展名
Monkey’s Audio	✔️	.ape
FLAC（Free Lossless Audio Codec）	✔️	.flac
ALAC（Apple Lossless Audio Codec）	✔️	.m4a/.caf
MP3（MPEG Audio Layer III）	❌	.mp3
WMA（Windows Media Audio）	❌	.wma
AAC（Advanced Audio Coding）	❌	.acc/.mp4/.m4a
Vorbis	❌	.ogg
Speex	❌	.spx
Opus	❌	.opus
Ogg		.ogg
WAV（Waveform Audio File Format）		.wav
AIFF（Audio Interchange File Format）		.aiff、.aif

3.1 无损

3.1.1 Monkey’s Audio

Monkey’s Audio，是一种无损的音频编码和文件格式，文件扩展名为**.ape**，压缩率一般在55%左右。

3.1.2 FLAC

FLAC（Free Lossless Audio Codec），是一种无损的音频编码和文件格式，文件扩展名为**.flac**。虽然压缩率稍有不及Monkey’s Audio，但FLAC技术更先进，占用资源更低，有更多的平台及硬件产品支持FLAC。

3.1.3 ALAC

ALAC（Apple Lossless Audio Codec），是由Apple开发的一种无损的音频编码，文件扩展名为**.m4a**、.caf。

3.2 有损

3.2.1 MP3

MP3（MPEG Audio Layer III），是非常流行的一种有损音频编码和文件格式，文件扩展名为**.mp3**。

第1版是：MPEG-1 Audio Layer III，属于国际标准ISO/IEC 11172-3
第2版是：MPEG-2 Audio Layer III，属于国际标准ISO/IEC 13818-3
第3版是：MPEG-2.5 Audio Layer III，并不是由MPEG官方开发的，不是公认的标准

3.2.2 WMA

WMA（Windows Media Audio），是由Microsoft开发的音频编码和文件格式，文件扩展名为**.wma**。包括4种类型：

WMA：原始的WMA编解码器，作为MP3的竞争者，属于有损音频编码
WMA Pro：支持更多声道和更高质量的音频，属于有损音频编码
WMA Lossless：属于无损音频编码
WMA Voice：属于有损音频编码

3.2.3 AAC

AAC（Advanced Audio Coding），是由Fraunhofer IIS、杜比实验室、AT&T、Sony、Nokia等公司共同开发的有损音频编码和文件格式，压缩比通常为18:1。

AAC被设计为MP3格式的后继产品，通常在相同的比特率下可以获得比MP3更高的声音质量，是iPhone、iPod、iPad、iTunes的标准音频格式。

AAC编码的文件扩展名主要有3种：

.acc：传统的AAC编码，使用MPEG-2 Audio Transport Stream（ADTS）容器
.mp4：使用了MPEG-4 Part 14的简化版即3GPP Media Release 6 Basic（3gp6）进行封装的AAC编码
.m4a：为了区别纯音频MP4文件和包含视频的MP4文件而由Apple公司使用的扩展名
- Apple iTunes对纯音频MP4文件采用了**.m4a**文件扩展名
- M4A的本质和音频MP4相同，故音频MP4文件可以直接更改文件扩展名为**.m4a**

3.2.4 Vorbis

Vorbis，是由Xiph.Org基金会开发的一种有损音频编码。通常以Ogg作为容器格式，所以常合称为Ogg Vorbis，文件扩展名为**.ogg**。

3.2.5 Speex

Speex，是由Xiph.Org基金会开发的一种有损音频编码和文件格式，文件扩展名为**.spx**。

3.2.6 Opus

Opus，是由Xiph.Org基金会开发的一种有损音频编码和文件格式，文件扩展名为**.opus**。用以取代Vorbis和Speedx。经过多次盲听测试，在任何给定的比特率下都比其他标准音频格式具有更高的质量，包括MP3、AAC。

3.3 文件格式

3.3.1 Ogg

Ogg是一种多媒体文件格式，由Xiph.Org基金会所维护，可以纳入各式各样的音视频编码（音频、视频都可以），文件扩展名常为**.ogg**。

Ogg常用的音频编码有：

有损压缩：Speex、Vorbis、Opus
无损压缩：FLAC
未压缩：PCM

3.3.2 WAV

WAV（Waveform Audio File Format），是由IBM和Microsoft开发的音频文件格式，扩展名是**.wav**，通常采用PCM编码，常用于Windows系统中。

WAV的文件格式如下图所示，前面有44个字节的文件头，紧跟在后面的就是音频数据（比如PCM数据）。

WAV文件格式

NumChannels：声道数
SampleRate：采样率（Hz）
ByteRate：每秒多少个字节（Byte/s）
BitsPerSample：位深度

3.3.3 AIFF

AIFF（Audio Interchange File Format），由Apple开发的音频文件格式，扩展名是**.aiff**、.aif。跟WAV一样，通常采用PCM编码，常用于Mac系统中。

3.4 有损和无损

根据采样率和位深度可以得知：相对于自然界的信号，音频编码最多只能做到无限接近，任何数字音频编码方案都是有损的，因为无法完全还原。目前能够达到最高保真水平的就是PCM编码，因此，PCM约定俗成叫做无损音频编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及常见的WAV文件中均有应用。

但并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们习惯性的把MP3列入有损音频编码范畴，是相对于PCM编码的。要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。

文章版权归作者所有，未经允许请勿转载，侵权请联系 admin@trc20.tw 删除。

THE END

# 音视频开发

01-?音视频技术核心知识|了解音频技术【移动通信技术的发展、声音的本质、深入了解音频】