DTMWiki 编曲中文百科
首页 chevron_right 百科 chevron_right 数字音频处理 chevron_right PCM 格式

PCM 格式

计算机处理音频数据一般使用的格式,其主要思想为通过方波近似替代原始音频波形。

person Napkid schedule 更新于 2025-05-20

PCM 格式

计算机处理数据一般使用 PCM(Pulse-Code Modulation) 格式数据,其主要思想为通过方波近似替代原始音频波形。

PCM 格式数据

假设原始信号(或称模拟信号)为 x ⁣:RRx\colon \mathbb{R} \to \mathbb{R} 则 PCM 的数据一般经由如下步骤生成:

1. 采样

采样是将原始数据沿时间离散化的过程,形式化的说,即为从原始信号 x ⁣:RRx \colon \mathbb{R} \to \mathbb{R} 生成离散数据(或称数字信号)X ⁣:NRX \colon \mathbb{N} \to \mathbb{R} 的过程

其主要实现方式为等距采样,步骤如下:

  1. 设定采样率 ff,表示 1s1s 内采样的点的个数单位为 Hz
  2. 在给定时间区间 [0,T][0, T] 内,步长为 1f\frac{1}{f},对所有 n[0,fT]Zn \in [0, f \cdot T] \cap \mathbb{Z} 计算得到 x(t)x(t) 的离散数据为 X[n]=f(nf)X[n] = f(\frac{n}{f})

其过程可以表述为下图:

采样.png

不难发现,在这一过程中,采样率的高低将会决定采样本身的精细程度,进而影响信号本身的信息是否丢失。但采样率并非越高越好,过高的采样率会导致冗余数据,过低的采样率会导致信号本身的失真(见 Downsample 失真),具体来说我们有如下定理给出信号采样过程中“最优”的采样率:

奈奎斯特-香农采样定理,如信号 x(t)x(t) 存在最高频率 ff,则采样率至少需要为 2f2f 才能离散信号中完全重建原始信号

其中 2f2f 称作奈奎斯特频率。结合初中物理可知,人耳最高可以听到的频率为 2020 kHz, 因此理论上采样率设置在 4040 kHz 便以足够。但在实际编曲过程中,为了留有一定的冗余的处理空间,一般选取 44.144.1 kHz 或 4848 kHz。

2. 量化

通过采样步骤得到数字信号 X[n]X[n] 后,因为计算机不能储存无限精度的数字,所以在采样之后需要对值域进行离散化。

其具体实现方式如下

  1. 将数字信号标准化,X[n]=X[n]maxX[n]X'[n] = \frac{X[n]}{\max{X[n]}},此时 X[n][0,1]X'[n] \in [0, 1]
  2. 选取位深 wZw \in \mathbb{Z}, 单位为 bit
  3. 对于每一个 nn,找到 mZm \in \mathbb{Z} 满足 X[n]m2n|X'[n] - \frac{m}{2^n}| 最小,得到 X[n]=mX''[n] = m
    其过程可视化如下(以 8-bit 位深为例)

量化.png

编曲实践中一般使用 8,16,24,328, 16, 24, 32 bit 作为位深

3. 编码

将由量化过程得到的最终信号 X[n]X''[n] 通过一系列方式编码得到最终输出为文件/可解析格式。如 WAV 编码(直接存储 PCM)FLAC 编码(无损压缩 WAV),MP3 编码(有损压缩编码)。

search Ctrl K ESC
manage_search 输入关键词开始搜索