DTMWiki 编曲中文百科

音频编码技术

下面将从发展历程、数学原理和典型应用场景三个维度，深入介绍 WAV/PCM、MP3、FLAC、AAC 四种主流音频格式。

一、WAV / PCM

1. 发展历程

PCM（Pulse Code Modulation，脉冲编码调制）最早于 1937 年由英国工程师 Alec Reeves 提出，随后在二战期间得到进一步研究。
WAV（Waveform Audio File Format）是微软与 IBM 在 1991 年联合制定的音频文件封装格式，底层数据即以 PCM 形式存储。

2. 数学原理

采样（Sampling）
- 模拟声波 $x (t)$ 以固定频率 $f_{s}$ （如 44.1 kHz）进行离散化，得到序列 $x [n] = x (n T)$ ，其中 $T = 1 / f_{s}$ 。
量化（Quantization）
- 每个采样值 $x [n]$ 被映射到最近的离散振幅级别，量化误差 $\epsilon[n]$ 满足：
  
  $\epsilon[n] = x[n] - \hat{x}[n],\quad \hat{x}[n] = Q(x[n])$
- 量化位深（如 16 bit、24 bit）决定可表示的离散级数 $2^{B}$ 。
编码（Coding）
- 直接将量化后的数值逐一以二进制存储，无额外压缩或去冗余。

3. 应用场景

专业录音棚及音频编辑中常用原始 PCM 数据进行无损处理。
WAV 文件广泛用于 Windows 平台游戏、音频采集与回放。

二、MP3（MPEG-1 Audio Layer III）

1. 发展历程

1987 年，Fraunhofer IIS 及 MPEG 组织开始研究；1991 年定稿 MPEG-1 标准，其中 Audio Layer III（MP3）成为最著名的有损压缩方案。
1993 年出现首款商用编码器 “l3enc”；1998 年—2000 年间，MP3 播放器和在线音乐广泛普及。

2. 数学原理

分帧与分带
- 输入 PCM 流按固定大小（如 1152 样本）分帧；每帧再分成若干子带（21 带或 32 带）。
MDCT 变换
- 对每个子带应用修正型离散余弦变换（MDCT）：
  
  $X[k] = \sum_{n=0}^{N-1} x[n]\cos\Bigl[\frac{\pi}{N}\bigl(n+\tfrac12+\tfrac{N}{2}\bigr)\bigl(k+\tfrac12\bigr)\Bigr]$
心理声学模型
- 基于人耳听觉掩蔽效应，计算每个子带可允许抑制的量化噪声阈值，将不可闻成分去除。
量化与码率控制
- 对变换系数进行非线性量化，并通过 Huffman 编码进一步压缩。
- 可设定恒定码率（CBR）或可变码率（VBR）。

3. 应用场景

早期的便携式 MP3 播放器。
网络音乐下载与流媒体（如早期 Napster、iPod）。
对存储空间有限且对音质要求中等的场景最为合适。

三、FLAC（Free Lossless Audio Codec）

1. 发展历程

2000 年，Xiph.Org 基金会启动 FLAC 项目，旨在开发一款开源、专注于无损压缩的音频格式。
2001 年发布首个稳定版本，并很快被主流播放器和硬件厂商支持。

2. 数学原理

线性预测（Linear Prediction）
- 利用前 $p$ 个采样值预测当前样本：
  
  $\hat{x}[n] = \sum_{i=1}^p a_i\,x[n-i]$
- 预测残差 $e[n] = x[n] - \hat{x}[n]$ 会比原始信号具有更低熵。
残差编码与熵编码
- 对残差序列使用 Rice 编码 或 Huffman 编码 进一步压缩。
分块与 CRC 校验
- 将音频分块处理，每块有 CRC 校验，保证数据完整性与流式解码。

3. 应用场景

音乐档案馆、发烧友收藏，追求原始音质无损还原。
专业音频制作中间稿交换。
支持标签、可快速跳转且兼容性佳，被多数播放器原生支持。

四、AAC（Advanced Audio Coding）

1. 发展历程

1994 年起，MPEG 组织在 MPEG-2 标准中引入 AAC；2003 年在 MPEG-4 正式成为标准。
Apple iTunes、YouTube、数字电视等平台广泛采用。

2. 数学原理

窗函数与MDCT
- 先对 PCM 音频流根据信号特性选择长窗或短窗进行加窗处理，然后将加窗后的数据通过修正型离散余弦变换（MDCT）映射到频域。
改进的心理声学模型
- 引入更精准的临近掩蔽与时频掩蔽计算，提升量化效率。
联合立体声与感知编码工具
- 提供 MS Stereo、Parametric Stereo、Temporal Noise Shaping (TNS)、Spectral Band Replication (SBR) 等多种工具，以在低码率下保持较高音质。
熵编码
- 使用统计最优的 Huffman 表对量化后的频谱系数进行压缩。

3. 应用场景

主流流媒体（Apple Music、Spotify）、数字广播（DAB+）、移动视频（YouTube、Netflix）。
低码率语音传输及 VoIP（结合 Opus 时常见）。

五、对比与选用建议

格式	音质	压缩率	主要特点	推荐场景
PCM/WAV	原始无损最高	无	简单直存，兼容性强	专业后期、音频编辑、高保真试点
MP3	有损，CD 级别	中高（~1/10）	历史最久，兼容最广	便携音乐、历史流媒体、存储空间受限场景
FLAC	完全无损	中（~1/2）	开源、快速解码、支持标签	音乐收藏、档案馆、专业制作
AAC	有损，优于 MP3	高（~1/12）	标准化工具丰富、低码率音质优	现代流媒体、移动视频、数字广播

search Ctrl K ESC

manage_search 输入关键词开始搜索