音频编码技术
下面将从发展历程、数学原理和典型应用场景三个维度,深入介绍 WAV/PCM、MP3、FLAC、AAC 四种主流音频格式。
一、WAV / PCM
1. 发展历程
- PCM(Pulse Code Modulation,脉冲编码调制)最早于 1937 年由英国工程师 Alec Reeves 提出,随后在二战期间得到进一步研究。
- WAV(Waveform Audio File Format)是微软与 IBM 在 1991 年联合制定的音频文件封装格式,底层数据即以 PCM 形式存储。
2. 数学原理
-
采样(Sampling)
- 模拟声波 以固定频率 (如 44.1 kHz)进行离散化,得到序列 ,其中 。
-
量化(Quantization)
-
每个采样值 被映射到最近的离散振幅级别,量化误差 满足:
-
量化位深(如 16 bit、24 bit)决定可表示的离散级数 。
-
-
编码(Coding)
- 直接将量化后的数值逐一以二进制存储,无额外压缩或去冗余。
3. 应用场景
- 专业录音棚及音频编辑中常用原始 PCM 数据进行无损处理。
- WAV 文件广泛用于 Windows 平台游戏、音频采集与回放。
二、MP3(MPEG-1 Audio Layer III)
1. 发展历程
- 1987 年,Fraunhofer IIS 及 MPEG 组织开始研究;1991 年定稿 MPEG-1 标准,其中 Audio Layer III(MP3)成为最著名的有损压缩方案。
- 1993 年出现首款商用编码器 “l3enc”;1998 年—2000 年间,MP3 播放器和在线音乐广泛普及。
2. 数学原理
-
分帧与分带
- 输入 PCM 流按固定大小(如 1152 样本)分帧;每帧再分成若干子带(21 带或 32 带)。
-
MDCT 变换
-
对每个子带应用修正型离散余弦变换(MDCT):
-
-
心理声学模型
- 基于人耳听觉掩蔽效应,计算每个子带可允许抑制的量化噪声阈值,将不可闻成分去除。
-
量化与码率控制
- 对变换系数进行非线性量化,并通过 Huffman 编码进一步压缩。
- 可设定恒定码率(CBR)或可变码率(VBR)。
3. 应用场景
- 早期的便携式 MP3 播放器。
- 网络音乐下载与流媒体(如早期 Napster、iPod)。
- 对存储空间有限且对音质要求中等的场景最为合适。
三、FLAC(Free Lossless Audio Codec)
1. 发展历程
- 2000 年,Xiph.Org 基金会启动 FLAC 项目,旨在开发一款开源、专注于无损压缩的音频格式。
- 2001 年发布首个稳定版本,并很快被主流播放器和硬件厂商支持。
2. 数学原理
-
线性预测(Linear Prediction)
-
利用前 个采样值预测当前样本:
-
预测残差 会比原始信号具有更低熵。
-
-
残差编码与熵编码
- 对残差序列使用 Rice 编码 或 Huffman 编码 进一步压缩。
-
分块与 CRC 校验
- 将音频分块处理,每块有 CRC 校验,保证数据完整性与流式解码。
3. 应用场景
- 音乐档案馆、发烧友收藏,追求原始音质无损还原。
- 专业音频制作中间稿交换。
- 支持标签、可快速跳转且兼容性佳,被多数播放器原生支持。
四、AAC(Advanced Audio Coding)
1. 发展历程
- 1994 年起,MPEG 组织在 MPEG-2 标准中引入 AAC;2003 年在 MPEG-4 正式成为标准。
- Apple iTunes、YouTube、数字电视等平台广泛采用。
2. 数学原理
-
窗函数与MDCT
- 先对 PCM 音频流根据信号特性选择长窗或短窗进行加窗处理,然后将加窗后的数据通过修正型离散余弦变换(MDCT)映射到频域。
-
改进的心理声学模型
- 引入更精准的临近掩蔽与时频掩蔽计算,提升量化效率。
-
联合立体声与感知编码工具
- 提供 MS Stereo、Parametric Stereo、Temporal Noise Shaping (TNS)、Spectral Band Replication (SBR) 等多种工具,以在低码率下保持较高音质。
-
熵编码
- 使用统计最优的 Huffman 表对量化后的频谱系数进行压缩。
3. 应用场景
- 主流流媒体(Apple Music、Spotify)、数字广播(DAB+)、移动视频(YouTube、Netflix)。
- 低码率语音传输及 VoIP(结合 Opus 时常见)。
五、对比与选用建议
| 格式 | 音质 | 压缩率 | 主要特点 | 推荐场景 |
|---|---|---|---|---|
| PCM/WAV | 原始无损最高 | 无 | 简单直存,兼容性强 | 专业后期、音频编辑、高保真试点 |
| MP3 | 有损,CD 级别 | 中高(~1/10) | 历史最久,兼容最广 | 便携音乐、历史流媒体、存储空间受限场景 |
| FLAC | 完全无损 | 中(~1/2) | 开源、快速解码、支持标签 | 音乐收藏、档案馆、专业制作 |
| AAC | 有损,优于 MP3 | 高(~1/12) | 标准化工具丰富、低码率音质优 | 现代流媒体、移动视频、数字广播 |