DTMWiki 编曲中文百科
首页 chevron_right 百科 chevron_right 数字音频处理 chevron_right 音频编码技术

音频编码技术

音频编码技术是一种将数字音频编码为文件存储的技术

person Napkid schedule 更新于 2025-05-21

音频编码技术

下面将从发展历程、数学原理和典型应用场景三个维度,深入介绍 WAV/PCM、MP3、FLAC、AAC 四种主流音频格式。


一、WAV / PCM

1. 发展历程

  • PCM(Pulse Code Modulation,脉冲编码调制)最早于 1937 年由英国工程师 Alec Reeves 提出,随后在二战期间得到进一步研究。
  • WAV(Waveform Audio File Format)是微软与 IBM 在 1991 年联合制定的音频文件封装格式,底层数据即以 PCM 形式存储。

2. 数学原理

  1. 采样(Sampling)

    • 模拟声波 x(t)x(t) 以固定频率 fsf_s(如 44.1 kHz)进行离散化,得到序列 x[n]=x(nT)x[n] = x(nT),其中 T=1/fsT = 1/f_s
  2. 量化(Quantization)

    • 每个采样值 x[n]x[n] 被映射到最近的离散振幅级别,量化误差 ϵ[n]\epsilon[n] 满足:

      ϵ[n]=x[n]x^[n],x^[n]=Q(x[n]) \epsilon[n] = x[n] - \hat{x}[n],\quad \hat{x}[n] = Q(x[n])

    • 量化位深(如 16 bit、24 bit)决定可表示的离散级数 2B2^B

  3. 编码(Coding)

    • 直接将量化后的数值逐一以二进制存储,无额外压缩或去冗余。

3. 应用场景

  • 专业录音棚及音频编辑中常用原始 PCM 数据进行无损处理。
  • WAV 文件广泛用于 Windows 平台游戏、音频采集与回放。

二、MP3(MPEG-1 Audio Layer III)

1. 发展历程

  • 1987 年,Fraunhofer IIS 及 MPEG 组织开始研究;1991 年定稿 MPEG-1 标准,其中 Audio Layer III(MP3)成为最著名的有损压缩方案。
  • 1993 年出现首款商用编码器 “l3enc”;1998 年—2000 年间,MP3 播放器和在线音乐广泛普及。

2. 数学原理

  1. 分帧与分带

    • 输入 PCM 流按固定大小(如 1152 样本)分帧;每帧再分成若干子带(21 带或 32 带)。
  2. MDCT 变换

    • 对每个子带应用修正型离散余弦变换(MDCT):

      X[k]=n=0N1x[n]cos[πN(n+12+N2)(k+12)] X[k] = \sum_{n=0}^{N-1} x[n]\cos\Bigl[\frac{\pi}{N}\bigl(n+\tfrac12+\tfrac{N}{2}\bigr)\bigl(k+\tfrac12\bigr)\Bigr]

  3. 心理声学模型

    • 基于人耳听觉掩蔽效应,计算每个子带可允许抑制的量化噪声阈值,将不可闻成分去除。
  4. 量化与码率控制

    • 对变换系数进行非线性量化,并通过 Huffman 编码进一步压缩。
    • 可设定恒定码率(CBR)或可变码率(VBR)。

3. 应用场景

  • 早期的便携式 MP3 播放器。
  • 网络音乐下载与流媒体(如早期 Napster、iPod)。
  • 对存储空间有限且对音质要求中等的场景最为合适。

三、FLAC(Free Lossless Audio Codec)

1. 发展历程

  • 2000 年,Xiph.Org 基金会启动 FLAC 项目,旨在开发一款开源、专注于无损压缩的音频格式。
  • 2001 年发布首个稳定版本,并很快被主流播放器和硬件厂商支持。

2. 数学原理

  1. 线性预测(Linear Prediction)

    • 利用前 pp 个采样值预测当前样本:

      x^[n]=i=1paix[ni] \hat{x}[n] = \sum_{i=1}^p a_i\,x[n-i]

    • 预测残差 e[n]=x[n]x^[n]e[n] = x[n] - \hat{x}[n] 会比原始信号具有更低熵。

  2. 残差编码与熵编码

    • 对残差序列使用 Rice 编码Huffman 编码 进一步压缩。
  3. 分块与 CRC 校验

    • 将音频分块处理,每块有 CRC 校验,保证数据完整性与流式解码。

3. 应用场景

  • 音乐档案馆、发烧友收藏,追求原始音质无损还原。
  • 专业音频制作中间稿交换。
  • 支持标签、可快速跳转且兼容性佳,被多数播放器原生支持。

四、AAC(Advanced Audio Coding)

1. 发展历程

  • 1994 年起,MPEG 组织在 MPEG-2 标准中引入 AAC;2003 年在 MPEG-4 正式成为标准。
  • Apple iTunes、YouTube、数字电视等平台广泛采用。

2. 数学原理

  1. 窗函数与MDCT

    • 先对 PCM 音频流根据信号特性选择长窗或短窗进行加窗处理,然后将加窗后的数据通过修正型离散余弦变换(MDCT)映射到频域。
  2. 改进的心理声学模型

    • 引入更精准的临近掩蔽与时频掩蔽计算,提升量化效率。
  3. 联合立体声与感知编码工具

    • 提供 MS StereoParametric StereoTemporal Noise Shaping (TNS)Spectral Band Replication (SBR) 等多种工具,以在低码率下保持较高音质。
  4. 熵编码

    • 使用统计最优的 Huffman 表对量化后的频谱系数进行压缩。

3. 应用场景

  • 主流流媒体(Apple Music、Spotify)、数字广播(DAB+)、移动视频(YouTube、Netflix)。
  • 低码率语音传输及 VoIP(结合 Opus 时常见)。

五、对比与选用建议

格式 音质 压缩率 主要特点 推荐场景
PCM/WAV 原始无损最高 简单直存,兼容性强 专业后期、音频编辑、高保真试点
MP3 有损,CD 级别 中高(~1/10) 历史最久,兼容最广 便携音乐、历史流媒体、存储空间受限场景
FLAC 完全无损 中(~1/2) 开源、快速解码、支持标签 音乐收藏、档案馆、专业制作
AAC 有损,优于 MP3 高(~1/12) 标准化工具丰富、低码率音质优 现代流媒体、移动视频、数字广播
search Ctrl K ESC
manage_search 输入关键词开始搜索