附录 E:KL 散度(Kullback-Leibler Divergence)详解

本附录为零基础读者提供 KL 散度的完整科普。如果你已经熟悉信息论基础,可以直接跳到 在 Agentic-RL 中的应用 部分。

KL 散度直觉理解


直觉理解:KL 散度在度量什么?

想象你是一名气象预报员。你建立了一个天气预测模型 ,而真实天气的分布是 KL 散度 衡量的是:当你用模型 来近似真实分布 时,平均会损失多少信息。

更通俗地说:

KL 散度度量两个概率分布之间的"距离"——但这是一种不对称的距离。

几个关键直觉:

  • :当且仅当 完全相同时成立。两个分布越"像",KL 散度越小。
  • :KL 散度永远非负(由 Gibbs 不等式保证)。
  • :不对称性!从 的"距离"和从 的"距离"通常不同。这就是为什么 KL 散度不是严格意义上的"度量"(metric),而是一种"散度"(divergence)。

数学定义

离散情形

对于两个离散概率分布 (定义在同一事件空间 上):

连续情形

对于两个连续概率分布(具有概率密度函数 ):

逐项解读

以离散情形为例,展开理解:

  • :真实分布中事件 的概率(权重)
  • :真实分布与近似分布在事件 上的"信息差"
  • 整体是一个加权平均:用真实分布 作为权重,对每个事件的信息差求期望

一个具体的例子

假设有一个 6 面骰子,真实分布 和两个模型分布 如下:

(真实)(均匀模型)(偏斜模型)
11/61/61/2
21/61/61/10
31/61/61/10
41/61/61/10
51/61/61/10
61/61/61/10

计算结果:

  • 完全一致,没有信息损失)
  • bits( 偏离了真实分布,产生了信息损失)

这告诉我们:偏斜模型 比均匀模型 更"差"——用 来近似真实分布会损失更多信息。


与信息论的关系

KL 散度可以通过信息论中的两个基本概念来理解:

信息熵(Entropy)

信息熵衡量分布 不确定性,也是对 中的事件进行最优编码所需的最小平均比特数。

交叉熵(Cross-Entropy)

交叉熵衡量的是:如果真实分布是 ,但我们使用基于 设计的编码方案,平均需要多少比特来编码一个事件。

三者的关系

即:KL 散度 = 交叉熵 − 信息熵 = 使用错误分布编码的额外代价

这就是 KL 散度又被称为**相对熵(Relative Entropy)**的原因。


不对称性的直觉

KL 散度的不对称性在实践中有重要影响:

  • (前向 KL):惩罚 有概率密度的地方给出低概率。效果是 倾向于覆盖 的所有模式(mode-covering),可能导致 过于分散。
  • (反向 KL):惩罚 没有概率密度的地方给出高概率。效果是 倾向于集中 的某个模式上(mode-seeking),可能导致 过于集中。

用一个形象的比喻:

  • 前向 KL 像一个"谨慎的人":宁可多覆盖,也不漏掉任何可能性
  • 反向 KL 像一个"专注的人":宁可只关注最重要的部分,也不分散注意力

在 Agentic-RL 中的应用

18.1 什么是 Agentic-RL 中,RL 阶段的损失函数包含一个 KL 散度惩罚项:

这里的 具体含义是:

为什么需要 KL 约束?

在 RL 训练过程中,模型会不断更新参数以最大化奖励。如果没有约束,模型可能会走向两个极端:

  1. 奖励黑客(Reward Hacking):模型找到钻奖励函数漏洞的方式获得高分,但实际输出质量低下。例如,模型可能学会生成某种特定格式来欺骗奖励模型,而非真正解决问题。
  2. 语言退化(Language Degeneration):模型的输出不再像自然语言,产生重复、无意义的 Token 序列。

KL 散度惩罚项起到一个"安全绳"的作用:

  • 如果当前策略 与 SFT 策略 的输出分布相同,,无额外惩罚
  • 如果当前策略偏离 SFT 策略过远, 增大,损失函数中的惩罚项增加,将策略"拉回"安全范围

的调节作用

超参数 控制 KL 约束的强度:

取值效果适用场景
较大(如 0.1–0.5)策略保守,紧跟 SFT 模型训练初期、任务安全性要求高
较小(如 0.001–0.01)策略自由,允许大幅探索训练后期、任务有明确客观评估标准
自适应动态调节,保持 KL 在目标范围PPO 中常用

在 GRPO(Group Relative Policy Optimization)中,KL 惩罚的具体实现方式会有所不同,详见 18.5 GRPO:组内相对策略优化与奖励函数设计


总结

概念一句话描述
KL 散度用分布 近似分布 时的平均信息损失
非负性,等号当且仅当
不对称性
与交叉熵的关系 交叉熵 信息熵
在 RL 中的作用防止策略偏离参考模型太远,避免奖励黑客和语言退化

延伸阅读

  • Kullback S, Leibler R A. On Information and Sufficiency[J]. The Annals of Mathematical Statistics, 1951, 22(1): 79-86.
  • Cover T M, Thomas J A. Elements of Information Theory[M]. 2nd ed. Wiley, 2006. (第 2 章详细介绍了 KL 散度的性质)
  • Schulman J, et al. Proximal Policy Optimization Algorithms[R]. arXiv:1707.06347, 2017. (PPO 中 KL 约束的工程实践)