归一化：BatchNorm、LayerNorm 与 RMSNorm

Naifan Li — Mon, 16 Mar 2026 17:05:46 +0800

为什么需要归一化

深层网络中，每一层的输出尺度会随着层数的增加变得不可控——有些层输出极大，有些极小。这直接导致梯度不稳定，学习率难以调整，训练容易发散。

归一化的本质作用是把中间表示拉回一个可控的尺度附近，从而：

BatchNorm 论文最初将此解释为"缓解 internal covariate shift"，但后续研究表明，归一化真正的价值更多在于改善优化条件，而不仅仅是修正分布漂移。

设输入为 $x$，对某个特征维（或通道），BatchNorm 分四步：

$$ \mu = \frac{1}{|\mathcal{B}|}\sum_{i \in \mathcal{B}} x_i $$

$$ \sigma^2 = \frac{1}{|\mathcal{B}|}\sum_{i \in \mathcal{B}} (x_i - \mu)^2 $$

$$ \hat{x}_i = \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}} $$

$$ y_i = \gamma\, \hat{x}_i + \beta $$

其中 $\gamma, \beta$ 是可学习参数，$\epsilon$ 防止除零。

统计维度取决于输入形状：

全连接层 $x \in \mathbb{R}^{B \times D}$：对每个特征维 $d$，在 batch 维 $B$ 上统计
卷积层 $x \in \mathbb{R}^{B \times C \times H \times W}$：对每个通道 $c$，在 $(B, H, W)$ 上统计

每个特征维（或通道）有独立的一组 $\gamma, \beta$。