最大似然估计：从统计建模到逻辑回归

Naifan Li — Sun, 15 Mar 2026 10:00:00 +0800

最大似然估计

核心问题：给定一批观测数据，如何反过来估计最可能生成这些数据的模型参数？

核心思想：如果一个参数 $\theta$ 是“好的参数”，那么在这个参数下，已经观测到的数据应该是“更容易发生”的。最大似然估计做的事情，就是在所有可能的参数里，找出那个让观测数据概率最大的参数。

换句话说：

最大似然估计 = 选择一组参数，使“当前这批数据在模型下出现的可能性最大”。

这是统计建模里最基础、也最重要的方法之一。

一个最直观的例子

假设你手里有一枚硬币，但你不知道它是不是公平的。你连续掷了很多次，记录到的数据大概是：

这时你自然会倾向于认为：这枚硬币本身更偏向正面。
也就是说，你会倾向于选择一个更大的正面概率 $p$，因为这样的参数更容易解释当前观测到的数据。

这就是最大似然估计的基本思想。

在最大似然估计里，最容易混淆的是“概率”和“似然”。

概率通常是：

参数已知，去看数据发生的概率。

例如，如果硬币正面概率是 $p=0.8$，那么连续观察到某组正反面序列的概率可以算出来。

而似然则反过来：

数据已经固定，去看不同参数 $\theta$ 对这组数据的解释能力谁更强。

所以，似然不是一个新发明出来的数学对象，它本质上还是同一个概率表达式，只是观察角度变了：

这就是为什么最大似然估计要写成：

$$ L(\theta) = p(D;\theta) $$

这里 $D$ 表示已经观测到的数据，$L(\theta)$ 表示参数 $\theta$ 的似然函数。

设观测数据为：

$$ D = \{x^{(1)}, x^{(2)}, \dots, x^{(n)}\} $$

模型由参数 $\theta$ 控制，每个样本的概率分布记为：

$$ p(x;\theta) $$

如果假设这些样本是独立同分布的，那么整批数据在参数 $\theta$ 下的联合概率为：

$$ L(\theta) = \prod_{i=1}^{n} p(x^{(i)};\theta) $$

这就是似然函数。

最大似然估计希望找到一个参数，使这个似然函数最大：

$$ \theta^\star = \arg\max_\theta L(\theta) $$

也就是：