信息量、熵、交叉熵与 KL 散度

Naifan Li — Sat, 14 Mar 2026 21:00:00 +0800

术语说明

术语	英文	含义
真实分布	true distribution	数据实际服从的概率分布，记为 $P$。在信息论中，它是「世界本来的样子」；在机器学习中，常对应真实标签分布或数据生成分布。
经验分布	empirical distribution	由有限样本估计得到的分布，记为 $\hat{P}$。若样本 $x^{(1)}, \dots, x^{(n)}$ 中，$x$ 出现 $n_x$ 次，则 $\hat{P}(x) = n_x / n$。样本量越大，经验分布越接近真实分布。
模型分布	model distribution	由模型参数决定的分布，记为 $Q$ 或 $q(x;\theta)$。训练的目标是让模型分布接近真实分布（或经验分布）。

核心问题：信息量为什么定义为 $i(x) = -\log_2 p(x)$？

核心思想：信息是“消除不确定性”的程度。事件越可能发生，发生后带来的新信息越少；越不可能发生，发生后带来的新信息越多。

例如：

所以，信息量本质上应该是概率 $p$ 的某个函数 $I(p)$，并满足：

其中，第二条最关键。

若事件 $A$ 和 $B$ 独立，则：

$$ P(A \cap B) = P(A)P(B) $$

而“知道 $A$ 发生”带来一部分信息，“知道 $B$ 发生”再带来一部分信息，那么“知道 $A$ 和 $B$ 同时发生”带来的信息，应该等于两者之和。因此信息量函数应满足：