<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title>最大似然估计 - Tag - Naifan Li's Blog</title><link>https://blog.omagiclee.com/tags/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1/</link><description>最大似然估计 - Tag - Naifan Li's Blog</description><generator>Hugo -- gohugo.io</generator><language>en-us</language><lastBuildDate>Sun, 15 Mar 2026 10:00:00 +0800</lastBuildDate><atom:link href="https://blog.omagiclee.com/tags/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1/" rel="self" type="application/rss+xml"/><item><title>最大似然估计：从统计建模到逻辑回归</title><link>https://blog.omagiclee.com/posts/basics/maximum-likelihood-estimation/</link><pubDate>Sun, 15 Mar 2026 10:00:00 +0800</pubDate><author>Naifan Li</author><guid>https://blog.omagiclee.com/posts/basics/maximum-likelihood-estimation/</guid><description><![CDATA[<h2 id="最大似然估计">最大似然估计</h2>
<p><strong>核心问题</strong>：给定一批观测数据，如何反过来估计最可能生成这些数据的模型参数？</p>
<p><strong>核心思想</strong>：如果一个参数 $\theta$ 是“好的参数”，那么在这个参数下，已经观测到的数据应该是“更容易发生”的。最大似然估计做的事情，就是在所有可能的参数里，找出那个<strong>让观测数据概率最大</strong>的参数。</p>
<p>换句话说：</p>
<blockquote>
<p><strong>最大似然估计 = 选择一组参数，使“当前这批数据在模型下出现的可能性最大”。</strong></p>
</blockquote>
<p>这是统计建模里最基础、也最重要的方法之一。</p>
<p><strong>一个最直观的例子</strong></p>
<p>假设你手里有一枚硬币，但你不知道它是不是公平的。你连续掷了很多次，记录到的数据大概是：</p>
<ul>
<li>正面很多</li>
<li>反面很少</li>
</ul>
<p>这时你自然会倾向于认为：这枚硬币本身更偏向正面。<br>
也就是说，你会倾向于选择一个更大的正面概率 $p$，因为这样的参数更容易解释当前观测到的数据。</p>
<p>这就是最大似然估计的基本思想。</p>
<h2 id="似然到底是什么">似然到底是什么</h2>
<p>在最大似然估计里，最容易混淆的是“概率”和“似然”。</p>
<p><strong>概率</strong>通常是：</p>
<blockquote>
<p>参数已知，去看数据发生的概率。</p>
</blockquote>
<p>例如，如果硬币正面概率是 $p=0.8$，那么连续观察到某组正反面序列的概率可以算出来。</p>
<p>而<strong>似然</strong>则反过来：</p>
<blockquote>
<p>数据已经固定，去看不同参数 $\theta$ 对这组数据的解释能力谁更强。</p>
</blockquote>
<p>所以，似然不是一个新发明出来的数学对象，它本质上还是同一个概率表达式，只是<strong>观察角度变了</strong>：</p>
<ul>
<li>概率：把参数看成固定，把数据看成随机</li>
<li>似然：把数据看成固定，把参数看成变量</li>
</ul>
<p>这就是为什么最大似然估计要写成：</p>
$$
L(\theta) = p(D;\theta)
$$<p>这里 $D$ 表示已经观测到的数据，$L(\theta)$ 表示参数 $\theta$ 的似然函数。</p>
<h2 id="最大似然估计的数学形式">最大似然估计的数学形式</h2>
<p>设观测数据为：</p>
$$
D = \{x^{(1)}, x^{(2)}, \dots, x^{(n)}\}
$$<p>模型由参数 $\theta$ 控制，每个样本的概率分布记为：</p>
$$
p(x;\theta)
$$<p>如果假设这些样本是独立同分布的，那么整批数据在参数 $\theta$ 下的联合概率为：</p>
$$
L(\theta) = \prod_{i=1}^{n} p(x^{(i)};\theta)
$$<p>这就是<strong>似然函数</strong>。</p>
<p>最大似然估计希望找到一个参数，使这个似然函数最大：</p>
$$
\theta^\star = \arg\max_\theta L(\theta)
$$<p>也就是：</p>]]></description></item><item><title>信息量、熵、交叉熵与 KL 散度</title><link>https://blog.omagiclee.com/posts/basics/kl-divergence/</link><pubDate>Sat, 14 Mar 2026 21:00:00 +0800</pubDate><author>Naifan Li</author><guid>https://blog.omagiclee.com/posts/basics/kl-divergence/</guid><description><![CDATA[<h2 id="术语说明">术语说明</h2>
<table>
  <thead>
      <tr>
          <th>术语</th>
          <th>英文</th>
          <th>含义</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><strong>真实分布</strong></td>
          <td>true distribution</td>
          <td>数据实际服从的概率分布，记为 $P$。在信息论中，它是「世界本来的样子」；在机器学习中，常对应真实标签分布或数据生成分布。</td>
      </tr>
      <tr>
          <td><strong>经验分布</strong></td>
          <td>empirical distribution</td>
          <td>由有限样本估计得到的分布，记为 $\hat{P}$。若样本 $x^{(1)}, \dots, x^{(n)}$ 中，$x$ 出现 $n_x$ 次，则 $\hat{P}(x) = n_x / n$。样本量越大，经验分布越接近真实分布。</td>
      </tr>
      <tr>
          <td><strong>模型分布</strong></td>
          <td>model distribution</td>
          <td>由模型参数决定的分布，记为 $Q$ 或 $q(x;\theta)$。训练的目标是让模型分布接近真实分布（或经验分布）。</td>
      </tr>
  </tbody>
</table>
<h2 id="信息量">信息量</h2>
<p><strong>核心问题</strong>：信息量为什么定义为 $i(x) = -\log_2 p(x)$？</p>
<p><strong>核心思想</strong>：信息是“消除不确定性”的程度。事件越可能发生，发生后带来的新信息越少；越不可能发生，发生后带来的新信息越多。</p>
<p>例如：</p>
<ul>
<li>“太阳今天升起来了”几乎不会让人惊讶，因此信息量很小</li>
<li>“你的彩票中了一个亿”极其罕见，因此信息量很大</li>
</ul>
<p>所以，信息量本质上应该是概率 $p$ 的某个函数 $I(p)$，并满足：</p>
<ol>
<li><strong>单调性</strong>：概率越小，信息量越大</li>
<li><strong>可加性</strong>：若两个事件独立，则联合事件的信息量应该等于两者之和</li>
<li><strong>非负性</strong>：信息量不应小于 $0$</li>
</ol>
<p>其中，第二条最关键。</p>
<p>若事件 $A$ 和 $B$ 独立，则：</p>
$$
P(A \cap B) = P(A)P(B)
$$<p>而“知道 $A$ 发生”带来一部分信息，“知道 $B$ 发生”再带来一部分信息，那么“知道 $A$ 和 $B$ 同时发生”带来的信息，应该等于两者之和。因此信息量函数应满足：</p>]]></description></item></channel></rss>