Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第10章 Agentic-RL:智能体强化学习训练

📖 "如果说 Prompt Engineering 是给 Agent 写'使用说明书',那么 Agentic-RL 就是让 Agent 通过反复实践,自己悟出最优解法。"

🎓 学习目标

完成本章学习后,你将能够:

  • ✅ 理解 Agentic-RL 的概念和技术路线
  • ✅ 掌握 SFT + LoRA 监督微调的实现方法
  • ✅ 深入理解 PPO、DPO、GRPO 三大强化学习算法的原理
  • ✅ 了解 DP / TP / PP / SP / ZeRO 分布式训练方法
  • ✅ 完成一个完整的 SFT + GRPO 训练 Pipeline
  • ✅ 通过最小可运行 demo 理解 GRPO/RLVR 的组内采样、相对优势和 KL 约束
  • ✅ 掌握专为 Agent 微调的数据构建方法(工具调用轨迹、Gorilla/ToolBench 数据集)
  • ✅ 理解 Agentic 数据飞轮:如何让 Agent 用自身运行数据持续自我进化
  • ✅ 掌握 Self-Evolution Agent 的系统架构:让 Agent 从记忆、Prompt、Skill 到模型训练持续改进
  • ✅ 跟踪 2025—2026 年 GRPO 家族、Agent RL、过程奖励与训练效率优化的最新研究脉络

⏱️ 预计学习时间

240-300 分钟(含实战,建议分两到三天完成)

💡 前置知识

  • 完成第2章(LLM 基础)和第9章(技能系统)
  • 了解神经网络基础和反向传播
  • 具备 PyTorch 基础操作经验
  • GPU 环境(推荐)或 Google Colab

🔗 学习路径

前置知识第2章 大语言模型基础 推荐但非必须:第5章 规划与推理(Planning & Reasoning)附录 E:KL 散度详解

后续推荐


本章概览

在前面的章节中,我们一直以提示词 + 工具调用的方式构建 Agent——Agent 的所有能力来自基座模型的预训练知识加上精心设计的 prompt。这种方式简单灵活,但存在一个根本性瓶颈:

Agent 的能力上界 = 基座模型的通用能力上界。

Agentic-RL(Agentic Reinforcement Learning) 提供了另一条路径:通过强化学习训练,让模型自主习得完成 Agent 任务的最优策略。DeepSeek-R1 [1] 和 DeepSWE [2] 等工作已经证明,经过 RL 训练的模型可以涌现出训练数据中从未出现过的推理策略,在推理和工具使用能力上显著超越纯 prompt 方式。

📚 本章结构

内容核心收获
10.1什么是 Agentic-RL理解 Agentic-RL 与传统后训练的本质区别,掌握 MDP 框架建模方法
10.2SFT + LoRA 基础训练掌握监督微调的形式化原理与 LoRA 参数高效训练方法
10.2b分布式训练基础DP / TP / PP / SP / ZeRO 分布式训练方法
10.3PPO:近端策略优化从策略梯度出发,系统理解重要性采样、优势函数、GAE 和 Clip 机制
10.4DPO:直接偏好优化掌握从 RLHF 到 DPO 的完整数学推导,理解隐式奖励的思想
10.5GRPO/GSPO + 奖励函数设计理解组内比较替代 Critic 的原理,以及多维度奖励函数设计与奖励黑客防御
10.6实战:完整训练 Pipeline先用最小 GRPO/RLVR demo 跑通核心机制,再基于 GSM8K 完成从数据准备到模型部署的完整训练
10.7最新研究进展(2025—2026)纵览 DeepSeek-R1、DAPO、VAPO、SAR、T-STAR、UCPO、DelTA、SRPO、GROW 等前沿工作,掌握 GRPO 家族与 Agent RL 的技术脉络
10.8专为 Agent 的微调工具调用数据构建、三大开源数据集(Gorilla/ToolBench/AgentInstruct)、Agent SFT 专项配置
10.9Agentic 数据飞轮轨迹收集→质量过滤→奖励标注→训练迭代的完整闭环系统设计
10.10Self-Evolution Agent记忆、Prompt、Skill、评估与数据飞轮协同形成自我改进闭环

参考文献

[1] DEEPSEEK AI. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning[R]. arXiv preprint arXiv:2501.12948, 2025.

[2] DEEPSEEK AI. DeepSWE: An open agentic SWE model that matches the performance of closed-source models[R]. 2025.