10.1 什么是 Agentic-RL

从"提示工程"到"训练优化"的范式转变

在本书前面的章节中,我们构建 Agent 的核心方法是 Prompt Engineering + 工具调用:精心编写系统提示词,定义工具接口,让通用大模型扮演特定角色来完成任务。这种方式开发快、门槛低,但存在一个根本性瓶颈:

Agent 的能力上界 = 基座模型的通用能力上界。

无论提示词设计得多精妙,如果基座模型在某类推理上存在系统性缺陷(如多步数学推理、复杂代码修复、长程规划),Agent 的表现就无法突破这一天花板。

Agentic-RL(Agentic Reinforcement Learning) 提出了一个根本不同的思路:与其在推理时通过 prompt 引导模型行为,不如在训练时通过强化学习信号让模型自主习得高质量的 Agent 策略。这一范式的核心洞察来自 DeepSeek-R1 [3] 的实验发现——纯粹的 RL 训练可以在模型中涌现出人类未曾显式教授的推理链条。

两种范式的系统性对比

维度Prompt EngineeringAgentic-RL
能力来源基座模型预训练知识 + 提示词引导基座模型 + 任务特定的 RL 优化
开发成本低(工程师时间)高(GPU 算力 + 数据标注)
任务适应性通用但不精专针对特定任务深度优化
推理效率依赖长 prompt,Token 消耗大能力内化到权重,推理更高效
可扩展性受限于上下文窗口和 prompt 长度可通过持续训练迭代提升
能力上界受限于基座模型可超越基座模型(涌现能力)
适用场景快速原型、通用任务、低频需求高频、高价值、有明确评估标准的任务

何时应当选择 Agentic-RL?

Agentic-RL 并非万能药。以下是基于实践经验总结的决策框架:

适合投入 Agentic-RL 的场景:

  • ✅ 任务具有客观可验证的评估标准(代码测试通过率、数学答案正确性、API 调用成功率)
  • ✅ 任务高频重复,训练成本可被长期收益摊薄
  • ✅ 当前基座模型在该任务上存在系统性、可改进的缺陷
  • ✅ 具备足够的训练数据或可通过自动化方式生成数据

不适合 Agentic-RL 的场景:

  • ❌ 一次性、低频的开放式任务(ROI 不足)
  • ❌ 无法客观量化评估的任务(如开放式创意写作)
  • ❌ 基座模型 + prompt 方式已达到可接受水平
  • ❌ 缺乏 GPU 算力资源(7B 模型 GRPO 训练至少需要 1× A100 40GB)

Agentic-RL 的理论基础:MDP 框架

马尔可夫决策过程建模

Agentic-RL 的理论基础是马尔可夫决策过程(Markov Decision Process, MDP) [1]。将 Agent 的任务执行过程形式化为一个有限时域 MDP:

其中各要素在 Agent 场景中的对应关系如下:

MDP 要素形式化定义Agent 场景中的对应
状态空间 当前对话历史 + 工具返回结果 + 环境上下文
动作空间 模型的下一次 Token 序列输出(文本、工具调用、代码等)
转移函数 环境对动作的响应(工具执行结果、用户反馈)
奖励函数 任务完成度评估(答案正确性、代码通过率等)
策略 模型参数 决定的条件生成分布
折扣因子 对未来奖励的折扣(通常取 1.0,即不折扣)

训练目标是最大化期望累积奖励:

逐项解读:

  • :最优模型参数,即我们希望通过训练找到的目标
  • :在所有可能的参数 中,找到使目标函数最大的那个
  • 期望运算符——由于模型生成是随机的(temperature > 0),同一问题每次生成的轨迹 不同,我们优化的是所有可能轨迹上的平均表现,而非某一次特定生成的结果
  • 折扣累积奖励,将轨迹中每一步的即时奖励 按时间折扣 加权求和; 时,近期奖励比远期奖励权重更大(在 Agentic-RL 中通常取 ,即不折扣,因为我们关心任务的最终完成质量而非中间步骤的时序差异)
  • :一条完整的交互轨迹,记录了从初始状态到终止状态的完整状态-动作序列

直觉理解:这个目标函数的含义是——调整模型参数 ,使得模型在面对各种任务时,平均能够获得尽可能高的累积奖励。这与人类学习的直觉一致:通过大量练习(采样轨迹),不断调整策略(更新参数),使得平均表现持续提升。

Agent 交互循环的形式化描述

Agent 交互循环 MDP

六大核心能力维度

经过 Agentic-RL 训练,模型可在以下六个维度获得系统性提升 [2]:

能力维度描述典型提升表现
指令遵循准确理解并执行复杂、多约束的指令格式符合率从 ~30% 提升至 ~90%
工具使用在正确时机调用正确工具,处理工具返回结果工具调用准确率显著提升
多步推理在复杂任务中维持长链条推理,减少中间步骤错误数学推理准确率提升 20-30%
自我纠错识别执行错误并主动修正,而非继续错误路径错误恢复率提升
探索策略在不确定情况下合理尝试不同方案首次成功率提升
效率优化用更少步骤、更少 Token 完成任务平均轨迹长度缩短

两阶段训练范式

当代主流的 Agentic-RL 训练遵循 SFT → RL 的两阶段范式 [3],两个阶段各有其不可替代的作用。

阶段一:SFT(监督微调)—— 策略初始化

核心目标:将基座模型的策略分布 调整为具备基本 Agent 行为格式的初始策略

SFT 阶段的训练目标是最大化对数似然:

逐项解读:

  • :负号 + 期望符号,表示在监督微调数据集 上,对所有样本 取平均。
    • :模型的输入(如用户指令、提示词)。
    • :对应的人类标注的理想输出(即"标准答案")。
    • :收集好的指令 - 答案对数据集。
  • :高质量的 Agent 交互轨迹数据集,每条样本包含输入上下文 (系统提示 + 用户问题)和专家示范输出 (含推理过程和工具调用)
  • :模型在给定输入 的条件下,生成专家示范序列 对数概率。这个值越大(越接近 0),说明模型认为专家示范是"合理的输出";加负号后变为损失,最小化损失即最大化对数概率
  • 实际计算时,自回归分解展开为逐 token 的对数概率之和:,即每个 token 的生成概率都以前面所有 token 为条件

直觉理解:SFT 的本质是"模仿学习"——给模型看大量专家示范,让模型学会"在这种输入下,专家会输出什么"。这个阶段类似于"临帖练字"——先模仿正确的行为模式,建立格式规范和基本能力。

训练数据示例:
输入 x: "计算 1234 × 5678 的结果"
期望输出 y*:
  <think>
  这需要精确的整数乘法计算,应使用计算器工具确保精度。
  </think>
  <tool_call>calculator(expression="1234 * 5678")</tool_call>

阶段二:RL(强化学习)—— 策略优化

核心目标:在 的基础上,通过奖励信号引导策略向 逼近,突破 SFT 数据的质量上界。

RL 阶段的训练目标是最大化期望奖励,同时通过 KL 散度约束防止策略偏离过远:

逐项解读:

  • 策略损失项——最大化当前策略 采样到的轨迹的期望奖励。负号是将最大化转为最小化(梯度下降惯例)
  • KL 散度惩罚项—— 衡量当前策略 与 SFT 初始策略 之间的"分布距离"。当两个分布完全相同时 ;差异越大, 越大。系数 控制惩罚强度: 越大,策略越保守(不敢偏离 SFT 模型); 越小,策略越激进(可能产生奖励黑客行为)。

    💡 什么是 KL 散度? 如果你对 KL 散度还不熟悉,推荐阅读本书的 附录 E:KL 散度详解,其中包含从直觉理解到数学定义的完整科普。简单来说, 回答的问题是:"如果真实分布是 ,用分布 来近似它,平均会损失多少信息?"

  • 两项的博弈:策略损失项鼓励模型"大胆探索"以获得更高奖励,KL 惩罚项约束模型"不要走太远"以保持语言质量。 是这两种力量的平衡点

SFT 只能让模型达到训练数据的水平上界。而 RL 阶段通过奖励函数告诉模型"什么是好的结果",让模型自主探索出超越示范数据的解决路径——这正是 DeepSeek-R1 [3] 能够涌现出"自我反思"和"长链推理"能力的关键机制。

SFT 阶段学到:  "看到数学题 → 调用计算器"
RL 阶段学到:   "分析问题结构 → 判断是否需要分步 → 
                 选择最优工具组合 → 验证中间结果 → 
                 发现错误时主动回溯"

为什么两个阶段缺一不可?

对比维度纯 SFT纯 RL(从随机初始化)SFT → RL
格式规范性✅ 高❌ 极低(输出混乱)✅ 高
能力上界❌ 受限于数据质量⚠️ 理论上无上界,实践中难收敛✅ 可超越数据质量
训练稳定性✅ 稳定❌ 极不稳定,容易发散✅ 较稳定
收敛速度极慢中等
最终性能中等不确定最优

📌 工程实践要点

SFT 阶段的数据质量比数量更关键。LIMA [4] 的研究表明,1,000 条精心筛选的高质量数据往往优于 10,000 条噪声数据。实践建议:

  • SFT 数据规模:500–2,000 条经过人工验证的 Agent 交互轨迹
  • RL 计算成本:约为 SFT 阶段的 3–10 倍(因需要在线采样)
  • 验证策略:先在 7B 小模型上验证训练流程的正确性,再扩展到更大模型
  • SFT 何时"毕业"? SFT 的目标不是"做到最好",而是"做到足够好"——Loss 收敛 + 格式正确率 ≥ 90% + 输出仍有多样性。过度 SFT 会严重损害 RL 效果,详见 10.2 节的 SFT 毕业标准

代表性工作与实证结果

项目基座模型训练方法核心成果
DeepSeek-R1 [3]DeepSeek-V3SFT + GRPO数学/代码推理能力媲美 OpenAI o1
DeepSWE [5]DeepSeek-R1SFT + GRPOSWE-bench Verified 59%(开源 SOTA)
OpenAI o1 [6]GPT-4 系列RL(具体方法未公开)数学/编程/科学推理大幅提升
Qwen-Agent [7]Qwen2.5SFT + DPO工具调用和多步推理能力提升

这些工作共同验证了 Agentic-RL 范式的有效性:通过强化学习训练,模型可以涌现出训练数据中未曾出现的推理策略,这是纯 SFT 方法无法实现的。


在下一节中,我们将从 SFT + LoRA 开始,详细介绍第一阶段监督微调的原理与实现。


参考文献

[1] SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. 2nd ed. Cambridge: MIT Press, 2018.

[2] XI Z, CHEN W, GUO X, et al. The rise and potential of large language model based agents: A survey[R]. arXiv preprint arXiv:2309.07864, 2023.

[3] DEEPSEEK AI. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning[R]. arXiv preprint arXiv:2501.12948, 2025.

[4] ZHOU C, LIU P, XU P, et al. LIMA: Less is more for alignment[C]//Advances in Neural Information Processing Systems (NeurIPS). 2023.

[5] DEEPSEEK AI. DeepSWE: An open agentic SWE model that matches the performance of closed-source models[R]. 2025.

[6] OPENAI. Learning to reason with LLMs[EB/OL]. 2024. https://openai.com/index/learning-to-reason-with-llms.

[7] YANG A, YANG B, HUI B, et al. Qwen2.5 technical report[R]. arXiv preprint arXiv:2412.15115, 2024.