第10章 Agentic-RL：智能体强化学习训练

📖 "如果说 Prompt Engineering 是给 Agent 写'使用说明书'，那么 Agentic-RL 就是让 Agent 通过反复实践，自己悟出最优解法。"

章节概述

在前面的章节中，我们一直以提示词 + 工具调用的方式构建 Agent——Agent 的所有能力来自基座模型的预训练知识加上精心设计的 prompt。这种方式简单灵活，但存在一个根本性瓶颈：

Agent 的能力上界 = 基座模型的通用能力上界。

Agentic-RL（Agentic Reinforcement Learning） 提供了另一条路径：通过强化学习训练，让模型自主习得完成 Agent 任务的最优策略。DeepSeek-R1 [1] 和 DeepSWE [2] 等工作已经证明，经过 RL 训练的模型可以涌现出训练数据中从未出现过的推理策略，在推理和工具使用能力上显著超越纯 prompt 方式。

你将学到

节	内容	核心收获
10.1	什么是 Agentic-RL	理解 Agentic-RL 与传统后训练的本质区别，掌握 MDP 框架建模方法
10.2	SFT + LoRA 基础训练	掌握监督微调的形式化原理与 LoRA 参数高效训练方法
10.3	PPO：近端策略优化	从策略梯度出发，系统理解重要性采样、优势函数、GAE 和 Clip 机制
10.4	DPO：直接偏好优化	掌握从 RLHF 到 DPO 的完整数学推导，理解隐式奖励的思想
10.5	GRPO/GSPO + 奖励函数设计	理解组内比较替代 Critic 的原理，掌握 GSPO 序列级优化的改进思想，以及多维度奖励函数设计与奖励黑客防御
10.6	实战：完整训练 Pipeline	基于 GSM8K 完成从数据准备到模型部署的完整 Agentic-RL 训练
10.7	最新研究进展（2025—2026）	纵览 DeepSeek-R1、DAPO、VAPO、SAR 等前沿工作，掌握领域最新动态

前置知识

理解 LLM 的基本工作原理（第 3 章）
了解 Python 和 PyTorch 基础
对机器学习/深度学习有基本概念

🔗 学习路径

前置知识：第3章 LLM 基础推荐但非必须：第6章规划与推理、附录 E KL 散度详解

后续推荐：

👉 第11章 LangChain — 用框架快速实践你训练出的模型

👉 第16章评估与优化 — 评估 RL 训练后的 Agent 效果

参考文献

[1] DEEPSEEK AI. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning[R]. arXiv preprint arXiv:2501.12948, 2025.

[2] DEEPSEEK AI. DeepSWE: An open agentic SWE model that matches the performance of closed-source models[R]. 2025.