PCM 格式

计算机处理数据一般使用 PCM(Pulse-Code Modulation) 格式数据，其主要思想为通过方波近似替代原始音频波形。

PCM 格式数据

假设原始信号（或称模拟信号）为 $x\colon \mathbb{R} \to \mathbb{R}$ 则 PCM 的数据一般经由如下步骤生成：

采样是将原始数据沿时间离散化的过程，形式化的说，即为从原始信号 $x \colon \mathbb{R} \to \mathbb{R}$ 生成离散数据（或称数字信号） $X \colon \mathbb{N} \to \mathbb{R}$ 的过程

其主要实现方式为等距采样，步骤如下：

设定采样率 $f$ ，表示 $1 s$ 内采样的点的个数单位为 Hz
在给定时间区间 $[0, T]$ 内，步长为 $\frac{1}{f}$ ，对所有 $n \in [0, f \cdot T] \cap \mathbb{Z}$ 计算得到 $x (t)$ 的离散数据为 $X[n] = f(\frac{n}{f})$

其过程可以表述为下图：

采样.png

不难发现，在这一过程中，采样率的高低将会决定采样本身的精细程度，进而影响信号本身的信息是否丢失。但采样率并非越高越好，过高的采样率会导致冗余数据，过低的采样率会导致信号本身的失真（见 Downsample 失真），具体来说我们有如下定理给出信号采样过程中“最优”的采样率：

奈奎斯特-香农采样定理，如信号 $x (t)$ 存在最高频率 $f$ ，则采样率至少需要为 $2 f$ 才能离散信号中完全重建原始信号

其中 $2 f$ 称作奈奎斯特频率。结合初中物理可知，人耳最高可以听到的频率为 $20$ kHz, 因此理论上采样率设置在 $40$ kHz 便以足够。但在实际编曲过程中，为了留有一定的冗余的处理空间，一般选取 $44.1$ kHz 或 $48$ kHz。

通过采样步骤得到数字信号 $X [n]$ 后，因为计算机不能储存无限精度的数字，所以在采样之后需要对值域进行离散化。

其具体实现方式如下

将数字信号标准化， $X'[n] = \frac{X[n]}{\max{X[n]}}$ ，此时 $X'[n] \in [0, 1]$
选取位深 $w \in \mathbb{Z}$ , 单位为 bit
对于每一个 $n$ ，找到 $m \in \mathbb{Z}$ 满足 $|X'[n] - \frac{m}{2^n}|$ 最小，得到 $X^{''} [n] = m$
其过程可视化如下（以 8-bit 位深为例）

量化.png

编曲实践中一般使用 $8, 16, 24, 32$ bit 作为位深

将由量化过程得到的最终信号 $X^{''} [n]$ 通过一系列方式编码得到最终输出为文件/可解析格式。如 WAV 编码（直接存储 PCM）FLAC 编码（无损压缩 WAV），MP3 编码（有损压缩编码）。