下面将从发展历程、数学原理和典型应用场景三个维度,深入介绍 WAV/PCM、MP3、FLAC、AAC 四种主流音频格式。
-
采样(Sampling)
- 模拟声波 x(t) 以固定频率 fs(如 44.1 kHz)进行离散化,得到序列 x[n]=x(nT),其中 T=1/fs。
-
量化(Quantization)
-
每个采样值 x[n] 被映射到最近的离散振幅级别,量化误差 ϵ[n] 满足:
ϵ[n]=x[n]−x^[n],x^[n]=Q(x[n])
-
量化位深(如 16 bit、24 bit)决定可表示的离散级数 2B。
-
编码(Coding)
- 直接将量化后的数值逐一以二进制存储,无额外压缩或去冗余。
- 专业录音棚及音频编辑中常用原始 PCM 数据进行无损处理。
- WAV 文件广泛用于 Windows 平台游戏、音频采集与回放。
- 1987 年,Fraunhofer IIS 及 MPEG 组织开始研究;1991 年定稿 MPEG-1 标准,其中 Audio Layer III(MP3)成为最著名的有损压缩方案。
- 1993 年出现首款商用编码器 “l3enc”;1998 年—2000 年间,MP3 播放器和在线音乐广泛普及。
-
分帧与分带
- 输入 PCM 流按固定大小(如 1152 样本)分帧;每帧再分成若干子带(21 带或 32 带)。
-
MDCT 变换
-
心理声学模型
- 基于人耳听觉掩蔽效应,计算每个子带可允许抑制的量化噪声阈值,将不可闻成分去除。
-
量化与码率控制
- 对变换系数进行非线性量化,并通过 Huffman 编码进一步压缩。
- 可设定恒定码率(CBR)或可变码率(VBR)。
- 早期的便携式 MP3 播放器。
- 网络音乐下载与流媒体(如早期 Napster、iPod)。
- 对存储空间有限且对音质要求中等的场景最为合适。
- 2000 年,Xiph.Org 基金会启动 FLAC 项目,旨在开发一款开源、专注于无损压缩的音频格式。
- 2001 年发布首个稳定版本,并很快被主流播放器和硬件厂商支持。
-
线性预测(Linear Prediction)
-
利用前 p 个采样值预测当前样本:
x^[n]=i=1∑paix[n−i]
-
预测残差 e[n]=x[n]−x^[n] 会比原始信号具有更低熵。
-
残差编码与熵编码
- 对残差序列使用 Rice 编码 或 Huffman 编码 进一步压缩。
-
分块与 CRC 校验
- 将音频分块处理,每块有 CRC 校验,保证数据完整性与流式解码。
- 音乐档案馆、发烧友收藏,追求原始音质无损还原。
- 专业音频制作中间稿交换。
- 支持标签、可快速跳转且兼容性佳,被多数播放器原生支持。
- 1994 年起,MPEG 组织在 MPEG-2 标准中引入 AAC;2003 年在 MPEG-4 正式成为标准。
- Apple iTunes、YouTube、数字电视等平台广泛采用。
-
窗函数与MDCT
- 先对 PCM 音频流根据信号特性选择长窗或短窗进行加窗处理,然后将加窗后的数据通过修正型离散余弦变换(MDCT)映射到频域。
-
改进的心理声学模型
- 引入更精准的临近掩蔽与时频掩蔽计算,提升量化效率。
-
联合立体声与感知编码工具
- 提供 MS Stereo、Parametric Stereo、Temporal Noise Shaping (TNS)、Spectral Band Replication (SBR) 等多种工具,以在低码率下保持较高音质。
-
熵编码
- 使用统计最优的 Huffman 表对量化后的频谱系数进行压缩。
- 主流流媒体(Apple Music、Spotify)、数字广播(DAB+)、移动视频(YouTube、Netflix)。
- 低码率语音传输及 VoIP(结合 Opus 时常见)。
| 格式 |
音质 |
压缩率 |
主要特点 |
推荐场景 |
| PCM/WAV |
原始无损最高 |
无 |
简单直存,兼容性强 |
专业后期、音频编辑、高保真试点 |
| MP3 |
有损,CD 级别 |
中高(~1/10) |
历史最久,兼容最广 |
便携音乐、历史流媒体、存储空间受限场景 |
| FLAC |
完全无损 |
中(~1/2) |
开源、快速解码、支持标签 |
音乐收藏、档案馆、专业制作 |
| AAC |
有损,优于 MP3 |
高(~1/12) |
标准化工具丰富、低码率音质优 |
现代流媒体、移动视频、数字广播 |