最大似然估计：从统计建模到逻辑回归

Naifan Li — Sun, 15 Mar 2026 10:00:00 +0800

最大似然估计

核心问题：给定一批观测数据，如何反过来估计最可能生成这些数据的模型参数？

核心思想：如果一个参数 $\theta$ 是“好的参数”，那么在这个参数下，已经观测到的数据应该是“更容易发生”的。最大似然估计做的事情，就是在所有可能的参数里，找出那个让观测数据概率最大的参数。

换句话说：

最大似然估计 = 选择一组参数，使“当前这批数据在模型下出现的可能性最大”。

这是统计建模里最基础、也最重要的方法之一。

一个最直观的例子

假设你手里有一枚硬币，但你不知道它是不是公平的。你连续掷了很多次，记录到的数据大概是：

正面很多
反面很少

这时你自然会倾向于认为：这枚硬币本身更偏向正面。
也就是说，你会倾向于选择一个更大的正面概率 $p$，因为这样的参数更容易解释当前观测到的数据。

这就是最大似然估计的基本思想。

似然到底是什么

在最大似然估计里，最容易混淆的是“概率”和“似然”。

概率通常是：

参数已知，去看数据发生的概率。

例如，如果硬币正面概率是 $p=0.8$，那么连续观察到某组正反面序列的概率可以算出来。

而似然则反过来：

数据已经固定，去看不同参数 $\theta$ 对这组数据的解释能力谁更强。

所以，似然不是一个新发明出来的数学对象，它本质上还是同一个概率表达式，只是观察角度变了：

概率：把参数看成固定，把数据看成随机
似然：把数据看成固定，把参数看成变量

这就是为什么最大似然估计要写成：

$$ L(\theta) = p(D;\theta) $$

这里 $D$ 表示已经观测到的数据，$L(\theta)$ 表示参数 $\theta$ 的似然函数。

最大似然估计的数学形式

设观测数据为：

$$ D = \{x^{(1)}, x^{(2)}, \dots, x^{(n)}\} $$

模型由参数 $\theta$ 控制，每个样本的概率分布记为：

$$ p(x;\theta) $$

如果假设这些样本是独立同分布的，那么整批数据在参数 $\theta$ 下的联合概率为：

$$ L(\theta) = \prod_{i=1}^{n} p(x^{(i)};\theta) $$

这就是似然函数。

最大似然估计希望找到一个参数，使这个似然函数最大：

$$ \theta^\star = \arg\max_\theta L(\theta) $$

也就是：

信息量、熵、交叉熵与 KL 散度

Naifan Li — Sat, 14 Mar 2026 21:00:00 +0800

术语说明

术语	英文	含义
真实分布	true distribution	数据实际服从的概率分布，记为 $P$。在信息论中，它是「世界本来的样子」；在机器学习中，常对应真实标签分布或数据生成分布。
经验分布	empirical distribution	由有限样本估计得到的分布，记为 $\hat{P}$。若样本 $x^{(1)}, \dots, x^{(n)}$ 中，$x$ 出现 $n_x$ 次，则 $\hat{P}(x) = n_x / n$。样本量越大，经验分布越接近真实分布。
模型分布	model distribution	由模型参数决定的分布，记为 $Q$ 或 $q(x;\theta)$。训练的目标是让模型分布接近真实分布（或经验分布）。

信息量

核心问题：信息量为什么定义为 $i(x) = -\log_2 p(x)$？

核心思想：信息是“消除不确定性”的程度。事件越可能发生，发生后带来的新信息越少；越不可能发生，发生后带来的新信息越多。

例如：

“太阳今天升起来了”几乎不会让人惊讶，因此信息量很小
“你的彩票中了一个亿”极其罕见，因此信息量很大

所以，信息量本质上应该是概率 $p$ 的某个函数 $I(p)$，并满足：

单调性：概率越小，信息量越大
可加性：若两个事件独立，则联合事件的信息量应该等于两者之和
非负性：信息量不应小于 $0$

其中，第二条最关键。

若事件 $A$ 和 $B$ 独立，则：

$$ P(A \cap B) = P(A)P(B) $$

而“知道 $A$ 发生”带来一部分信息，“知道 $B$ 发生”再带来一部分信息，那么“知道 $A$ 和 $B$ 同时发生”带来的信息，应该等于两者之和。因此信息量函数应满足：

最大似然估计 - Tag - Naifan Li's Blog

最大似然估计：从统计建模到逻辑回归