10.7 最新研究进展（2025—2026）

📖 "从 DeepSeek-R1 登上 Nature 封面到 DAPO/VAPO 刷新推理基准，Agentic-RL 正以惊人的速度从实验室走向工程实践。本节将带你纵览这一领域最前沿的研究成果。"

⏰ 时效性说明：本节内容更新至 2026 年 3 月 20 日。由于该领域发展极为迅速，建议读者结合 Awesome-RL-Reasoning-Recipes 等开源项目获取最新动态。

Agentic-RL 前沿研究全景图

7.1 概览：从 RLHF 到推理 RL 的范式转变

过去两年（2025—2026）是大模型强化学习领域爆发式发展的两年。以 DeepSeek-R1 登上 Nature 封面为标志，RL 训练 LLM 从"对齐人类偏好"（RLHF）的辅助角色，跃升为激发模型推理能力的核心技术。我们可以用一张时间线来概览关键里程碑：

2024.09  OpenAI o1 发布，首次展示"推理时间计算扩展"（test-time compute scaling）的潜力
2025.01  DeepSeek-R1 发布，纯 RL 训练激发自主推理能力，使用 GRPO 算法
2025.01  Kimi k1.5 发布，128K 长上下文 RL 训练，Long2Short 蒸馏技术
2025.02  QwQ-32B 发布，展示中等规模模型的推理 RL 训练效果
2025.03  DAPO 开源发布，提出可复现的大规模 RL 训练方案
2025.04  VAPO 发布，基于价值增强的 PPO 框架，AIME 2024 达到 60.4 分
2025.06  OpenAI o3 发布，推理能力进一步跃升
2025.07  GSPO 提出（Qwen 团队），序列级策略优化稳定 MoE 训练，训练 Qwen3
2025.08  Self-Aligned Reward (SAR) 提出，利用困惑度信号解决过度思考
2025.10  PURE 框架发布，最小形式信用分配解决奖励破解问题
2025.12  Co-rewarding (ICLR 2026) 提出自监督 RL 学习方案
2026.01  RLVR 新范式：基于问题拆解的高效强化学习方法
2026.02  DRQA 动态推理配额分配，token 成本降低 31%
2026.03  CoRLHF 提出协同策略-奖励联合优化

这些工作可以归纳为以下几个核心研究方向：

方向	代表工作	核心问题
推理模型训练	DeepSeek-R1, Kimi k1.5, QwQ	如何通过 RL 激发 LLM 的推理能力？
RL 算法改进	DAPO, VAPO, GSPO, GRPO 变体	如何让大模型 RL 训练更稳定、更高效？
奖励设计与反馈	SAR, Co-rewarding, CoRLHF	如何设计更好的奖励信号？
过度思考与效率	PURE, DRQA, DEER	如何让模型"恰到好处"地推理？
Agentic 任务 RL	AgentPRM, R³L, DeepSWE	如何将 RL 扩展到工具调用等 Agent 任务？

下面我们逐一深入介绍每个方向的重要论文。

7.2 推理模型：纯 RL 训练激发自主推理

7.2.1 DeepSeek-R1：Nature 封面的突破

论文：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (Nature, 2025) [1]

DeepSeek-R1 是该领域最具里程碑意义的工作。它的核心发现是：

仅通过 RL 训练（不需要人工标注的推理链），模型可以自主涌现出多步推理、自我反思和动态策略调整等高级认知能力。

核心技术要点

GRPO 算法：使用组内相对策略优化（详见 10.5 节），通过组内回答竞争优化策略，避免昂贵的 Critic 网络，总训练成本约 29.4 万美元。
多阶段训练框架：
- R1-Zero 阶段：仅使用结果正确性作为奖励（可验证奖励 RLVR），不使用任何 SFT 数据。模型自发涌现出 "Aha moment"——在推理过程中学会自我反思和纠错。
- R1 阶段：在 R1-Zero 基础上，融入少量高质量 SFT 数据和人类偏好对齐，提升综合能力。
可验证奖励（RLVR）：奖励信号来源于可自动验证的任务（如数学题的最终答案），无需人工标注。

关键实验结果

在 MMLU、AIME 2024、LiveCodeBench 等 21 个基准上达到 SOTA
R1-Zero 展示了"从零开始学推理"的可能性——RL 训练过程中推理链长度自发增长
蒸馏到 7B/14B 小模型后仍保持强推理能力

为什么重要？

DeepSeek-R1 证明了两个关键论点：

RL 可以激发预训练中潜在的推理能力——这些能力在 SFT 或 prompt engineering 中难以充分释放
推理能力可以在纯 RL 环境中"涌现"——无需依赖人工标注的推理链作为示范

7.2.2 Kimi k1.5：长上下文 RL 的突破

论文：Kimi k1.5: Scaling Reinforcement Learning with LLMs (2025) [2]

Kimi k1.5 由 Moonshot AI 团队开发，在几个方面做出了独特贡献：

核心创新

128K 长上下文 RL 训练：将 RL 训练的上下文窗口从传统的 4K-8K 扩展到 128K tokens，通过部分轨迹重用（Partial Rollout Reuse）提升训练效率。
简化 RL 框架：摒弃蒙特卡洛树搜索（MCTS）和价值函数，仅通过改进的在线镜像下降（Online Mirror Descent）直接优化模型，大幅降低计算负担。
Long2Short 蒸馏技术：将长上下文推理能力"压缩"到短上下文模型中。具体做法是：
- 先在长上下文设置下训练出强推理能力
- 然后通过知识蒸馏，让短上下文模型学会"精炼"推理

关键结果

在 LiveCodeBench 等短任务上超越 GPT-4o 达 550%
Long2Short 技术证明了长链推理能力可以被压缩而不显著损失
首次展示 128K 上下文窗口的 RL 训练的可行性

7.2.3 QwQ-32B：中等规模的推理 RL

论文：QwQ: Reflect and Question to Understand the World (Alibaba, 2025) [3]

QwQ-32B 是阿里巴巴通义团队发布的中等规模推理模型，其意义在于证明了 32B 参数量级的模型也能通过 RL 训练获得强大的推理能力。

技术特点

基于 Qwen2.5-32B 进行 RL 训练
在数学推理任务上接近 DeepSeek-R1 的表现
训练成本远低于 670B 级别模型

为什么重要？

QwQ 证明了推理 RL 不是"大模型专属"——中等规模模型通过合适的 RL 训练同样能获得显著的推理能力提升，这对资源有限的团队和边缘部署场景具有重大实践价值。

7.2.4 OpenAI o1/o3：推理时间计算扩展

模型：OpenAI o1 (2024.09) / OpenAI o3 (2025.06) [4]

虽然 OpenAI 未公布完整的技术报告，但 o1 和 o3 系列模型在业界产生了深远影响：

核心理念：Test-Time Compute Scaling

传统的 Scaling Law 关注训练时计算扩展（更大模型 + 更多数据）。o1/o3 系列提出了另一个维度：

在推理时投入更多计算（更长的思考链、更多的搜索/验证），也能持续提升模型能力。

这意味着存在两条互补的扩展路径：

训练时扩展：增大模型、增加数据
推理时扩展：增加推理步骤、验证回路

对领域的影响

催生了"推理模型"这一新品类
推动了 GRPO、DAPO、VAPO 等面向推理任务的 RL 算法研发
引发了对"推理效率"的关注——过度思考（Overthinking）问题浮出水面

7.3 RL 算法改进：让大模型 RL 训练更稳定高效

7.3.1 DAPO：大规模可复现的 RL 训练

论文：DAPO: An Open-Source LLM Reinforcement Learning System at Scale (2025) [5]

DAPO（Decoupled Clip and Dynamic Sampling PPO）由字节跳动 Seed 团队提出，核心目标是解决大规模 RL 训练的可复现性问题。

核心技术

解耦裁剪（Decoupled Clipping）：传统 PPO 使用对称裁剪 $ϵ$ ，DAPO 将上下裁剪边界分离：
- $ϵ_{high}$ （较大）：鼓励对好回答的探索
- $ϵ_{low}$ （较小）：严格抑制坏回答
这种不对称设计让模型在"保守抑制坏行为"的同时"大胆探索好行为"。
动态采样（Dynamic Sampling）：根据训练进度动态调整每个问题的采样数量：
- 训练初期：多采样，增加探索
- 训练后期：少采样，精细优化
Token 级策略约束：在 token 级别而非序列级别施加 KL 约束，更精细地控制策略偏移。

开源贡献

DAPO 完整开源了训练代码和数据集（基于 Qwen2.5-32B），是目前最具可复现性的大规模 RL 训练方案之一。

7.3.2 VAPO：基于价值增强的 PPO

论文：VAPO: Efficient and Reliable RL Framework for Advanced Reasoning Tasks (ByteDance Seed, 2025) [6]

VAPO（Value-based Augmented PPO）是 DAPO 的后续工作，专门针对长链推理任务中的难题。

核心问题

长链推理（如数学证明、复杂编程）中，RL 训练面临三大挑战：

价值模型偏差：Critic 网络对长序列的价值估计不准
异构序列长度：同一批次中回答长度差异极大
稀疏奖励：只有最终答案才有奖励信号

核心技术

价值预训练（Value Pretraining）：使用蒙特卡洛回报预训练 Critic 网络，减小初始化偏差。
解耦 GAE（Decoupled GAE）：
- 对价值网络使用 $λ_{V} = 1.0$ （低偏差、高方差）
- 对策略网络使用 $λ_{P} = 0.95$ （平衡偏差与方差）
长度自适应 GAE（Length-Adaptive GAE）：根据序列长度动态调整 $λ$ ：

$λ = 1 - \frac{1}{0.05 \cdot l}$

其中 $l$ 为序列长度。长序列使用更大的 $λ$ （减少偏差），短序列使用更小的 $λ$ （减少方差）。

Clip-Higher 探索：使用不对称裁剪 $ϵ_{high} = 0.28$ , $ϵ_{low} = 0.2$ ，鼓励多样性采样。

关键结果

模型	AIME 2024	训练步数	稳定性
DeepSeek-R1-Zero (671B)	~50	大量	偶有崩溃
DAPO (32B)	~50	中等	较稳定
VAPO (32B)	60.4	~5,000	无崩溃

VAPO 仅用 Qwen-32B 和 5,000 步训练就超越了 671B 的 DeepSeek-R1-Zero，且训练过程完全无崩溃。

7.3.3 GRPO 变体与改进

自 DeepSeek-R1 提出 GRPO 以来，多篇论文对其进行了改进：

改进方向	代表工作	解决的问题
序列级优化	GSPO [15]	Token 级重要性权重引入高方差噪声，导致 MoE 模型训练坍塌。GSPO 将重要性采样提升到序列级，训练 Qwen3
移除均值归一化	Dr. GRPO	原始 GRPO 的组内均值归一化会引入偏差
自适应组大小	Adaptive GRPO	固定组大小不适合所有问题难度
Token 级优势	Token-level GRPO	序列级优势对长序列不够精细
在线/离线混合	Hybrid GRPO	纯在线采样效率低

其中 GSPO 是最具实践影响力的改进——它已被阿里巴巴 Qwen 团队用于训练 Qwen3 系列模型。关于 GSPO 的详细原理和实现，请参阅 10.5 节的 GSPO 章节。

7.4 奖励设计：如何告诉模型什么是好的推理？

奖励函数是 RL 训练的"灵魂"。2025—2026 年，奖励设计出现了三个重要方向。

7.4.1 Self-Aligned Reward (SAR)：利用模型内部信号

论文：Self-Aligned Reward: Towards Effective and Efficient Reasoners (UIUC & Amazon AWS, 2025) [7]

核心思想

SAR 的核心洞察是：模型内部的困惑度（Perplexity）差异可以作为高质量的奖励信号。

具体来说，SAR 计算两种条件下的困惑度差异：

$r_{SAR} (y ∣ x) = \frac{PPL ( y ) - PPL ( y ∣ x )}{PPL ( y )}$

其中：

$PPL (y ∣ x)$ ：给定问题 $x$ 时生成回答 $y$ 的困惑度
$PPL (y)$ ：将回答 $y$ 视为独立文本时的困惑度

直觉解释：

高 SAR：回答高度依赖于问题（是针对性的、简洁的回答）
低 SAR：回答与问题关联弱（可能是冗长、泛泛的内容）

为什么有效？

无需外部奖励模型：利用模型自身的语言建模能力
细粒度评分：可以区分"正确且简洁"vs"正确但冗长"
跨任务泛化：在数学数据上训练，在逻辑推理等非数学任务上同样有效

实验效果

在 4 个基础模型和 7 个数据集上：

准确率平均提升 4%
输出长度减少 30%

7.4.2 Co-rewarding：自监督 RL 学习

论文：Co-rewarding: Self-Supervised RL for LLM Reasoning (ICLR 2026) [8]

核心问题

Self-rewarding RL（让模型自己给自己打分）容易出现训练坍塌——模型学会生成"容易给自己高分"而非"真正好"的回答。

解决方案

Co-rewarding 引入互补监督信号：

对同一问题生成改写版本
使用改写问题的回答作为原问题回答的辅助评估
两个方向的评估互相约束，防止坍塌

关键结果

在推理任务上性能提升 12.9%（无需真实标签）
训练过程显著更稳定

7.4.3 CoRLHF：协同策略-奖励联合优化

论文：CoRLHF: Reinforcement Learning from Human Feedback with Cooperative Policy-Reward Optimization (Expert Systems with Applications, 2026) [9]

核心创新

传统 RLHF 分两步：先训练奖励模型，再用奖励模型训练策略。这导致了分布不匹配问题——奖励模型训练时看到的数据分布与策略优化时生成的数据分布不一致。

CoRLHF 将策略优化和奖励模型优化合并为一个迭代过程：

策略生成新数据
奖励模型在新数据上更新
策略在更新后的奖励上优化
循环迭代

这种方法桥接了 RLHF 和 RLAIF，在减少人工反馈依赖的同时保持了对齐质量。

7.4.4 内生奖励：LLM 是自带的奖励模型

论文：周志华团队相关工作 (南京大学, 2025) [10]

颠覆性发现

这项研究发现：LLM 的 next-token prediction 能力本身就蕴含了通用奖励函数（内生奖励，Endogenous Reward）。

也就是说，预训练过程中学到的语言模型分布已经隐式编码了"什么是好的输出"的判断能力，无需额外训练奖励模型。

实践意义

减少了 RLHF pipeline 中的一个组件（奖励模型）
降低了误差累积的风险
在多个对齐基准上超越传统奖励模型

7.5 过度思考与推理效率

随着推理模型的普及，一个新问题浮出水面：过度思考（Overthinking）——模型在简单问题上也生成冗长的推理链，浪费计算资源且可能降低准确率。

7.5.1 问题分析：为什么推理模型会"想太多"？

过度思考的根源在于 RLVR（基于可验证奖励的 RL）的奖励结构：

只要最终答案正确，不管推理过程多长、多冗余，模型都会获得同样的奖励。

这导致了两个问题：

奖励膨胀：标准 RL 的求和形式信用分配使模型偏好生成更多步骤
无差别激励：无法区分"简洁正确"和"冗长正确"

7.5.2 PURE：最小形式信用分配

论文：Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning (2025) [11]

核心洞察

传统 RL 将轨迹价值定义为未来奖励的总和：

$V_{sum} (s_{t}) = k = t \sum T γ^{k - t} r_{k}$

PURE 提出用最小值替代总和：

$V_{min} (s_{t}) = min (r_{t}, r_{t + 1}, \dots, r_{T})$

直觉：推理链的强度取决于最薄弱的一环。

方式	训练信号	后果
求和形式	"多生成'还行'的步骤来堆分"	冗长、循环论证
最小形式	"每一步都必须正确，一步错满盘输"	简洁、精确

实现方法

PURE 通过温度参数 $T$ 将过程奖励转换为新奖励，使标准 RL 算法（PPO/GRPO）的求和公式在数学上等效于取最小值——无需修改底层算法，只需奖励预处理。

实验结果

求和形式训练几乎立即崩溃
最小形式训练稳定提升
样本效率提升 2-3 倍

7.5.3 DRQA：动态推理配额分配

论文：DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models (2026) [12]

核心观察

一个有趣的发现：当模型批量处理多个问题时（而非逐个处理），总输出长度显著缩短——模型似乎能隐式区分问题难度并"压缩"简单问题的推理。

方法

构建偏好数据：
- 单独生成的推理链（冗长版）
- 批量生成的推理链（精炼版）
- 按正确性和简洁性标注偏好
使用 GRPO 训练模型同时优化逻辑正确性和推理简洁性

效果

推理 token 成本降低 31%
准确率反而提升
在简单问题上缩短最多，复杂问题保持充分推理

7.5.4 DEER：动态早停推理

论文：Dynamic Early Exit in Reasoning Models (DEER) (2026) [13]

DEER 是一种免训练的推理时优化方法：

在推理过程中实时监控模型置信度
当模型对当前答案高度自信时触发早停
简单问题快速结束，复杂问题继续思考

效果

推理链长度缩短 19.1%—80.1%
准确率提升 0.3%—5.0%
无需额外训练，即插即用

7.5.5 方案对比

方法	核心思想	是否需要训练	效率提升	准确率影响
SAR	困惑度差异作为奖励	是（RL训练）	长度-30%	+4%
PURE	最小形式信用分配	是（奖励预处理）	2-3x 样本效率	显著提升
DRQA	模拟批量推理的配额分配	是（GRPO训练）	token-31%	提升
DEER	置信度触发早停	否（推理时）	长度-19%~80%	+0.3%~5%
简洁 RL	二阶段精炼训练	是（二阶段RL）	长度显著缩短	不降反升

7.6 RLVR：基于可验证奖励的强化学习

RLVR（Reinforcement Learning with Verifiable Rewards） 是 2025—2026 年最热门的研究方向之一，也是 DeepSeek-R1 成功的关键。

7.6.1 什么是 RLVR？

与传统 RLHF 依赖人工标注的偏好数据不同，RLVR 使用可自动验证的信号作为奖励：

对比维度	RLHF	RLVR
奖励来源	人工标注偏好	自动验证（如答案对错）
标注成本	高	极低
适用任务	开放式（对话、写作）	有明确正确答案（数学、代码）
扩展性	受标注速度限制	几乎无限扩展

7.6.2 RLVR 的问题与改进

问题拆解框架（人大 & 字节, 2026）[14]：

传统 RLVR 仅在最终答案处给出奖励（稀疏奖励），导致长链推理中的信用分配困难。该工作提出 Decomposer-Reasoner 框架：

Decomposer：将复杂问题拆解为子问题
Reasoner：逐步解决子问题
密集奖励：每个子问题的解决都有可验证的奖励

这种方法将稀疏奖励转化为密集奖励，显著提升了 RL 训练的探索效率。

当 Agent 执行失败时，生成语言反馈诊断错误原因
从失败点重新开始，利用反馈避免重蹈覆辙
大幅减少了 rollout 成本

生成"看起来像推理"但实际是胡说八道的长文本
利用格式技巧（如特定关键词）获得高奖励
在自我评估中学会"自欺欺人"

7.8.2 训练稳定性

大模型 RL 训练仍然不够稳定：

KL 散度管理：策略偏移过大会导致灾难性遗忘
奖励规模：不同奖励维度的尺度不一致
数据多样性：训练数据的多样性直接影响探索质量

7.8.3 泛化能力

当前 RL 训练的推理能力主要在数学和代码领域验证，向以下领域的泛化仍需探索：

开放域推理（科学推理、常识推理）
多模态推理（视觉-语言、视频理解）
跨语言推理

7.8.4 效率与成本

RL 训练的计算成本仍然很高：

大量的 rollout 采样
多个模型（Policy、Reference、可能的 Critic）同时在显存中
长序列推理的显存和时间开销

7.8.5 未来展望

基于当前的研究趋势，我们预期以下方向将成为热点：

方向	预期进展
内部信号挖掘	更多利用模型自身信号（如 SAR、内生奖励）替代外部奖励模型
自我进化训练	模型自主生成训练数据和奖励信号的闭环系统
多模态 RL	将推理 RL 扩展到视觉、语音等多模态场景
Agentic RL 扩展	将 RL 从推理任务扩展到工具调用、环境交互等 Agent 场景
高效训练	减少 rollout 成本、提升样本效率的新算法
理论基础	更深入理解 RL 如何激发 LLM 推理能力的理论分析

7.9 论文列表

以下是本节涉及的主要论文，按主题分类：

推理模型

#	论文	作者/机构	年份	核心贡献
[1]	DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL	DeepSeek AI	2025	纯 RL 训练激发自主推理，GRPO 算法
[2]	Kimi k1.5: Scaling Reinforcement Learning with LLMs	Moonshot AI	2025	128K 长上下文 RL，Long2Short 蒸馏
[3]	QwQ: Reflect and Question to Understand the World	Alibaba	2025	中等规模推理 RL
[4]	OpenAI o1/o3 System Card	OpenAI	2024/2025	推理时间计算扩展

RL 算法

#	论文	作者/机构	年份	核心贡献
[5]	DAPO: An Open-Source LLM RL System at Scale	ByteDance Seed	2025	解耦裁剪 + 动态采样，开源可复现
[6]	VAPO: Efficient and Reliable RL for Advanced Reasoning	ByteDance Seed	2025	价值预训练 + 长度自适应 GAE，AIME 60.4
[15]	GSPO: Group Sequence Policy Optimization	Alibaba (Qwen Team)	2025	序列级重要性采样，稳定 MoE 训练，训练 Qwen3

奖励设计

#	论文	作者/机构	年份	核心贡献
[7]	Self-Aligned Reward (SAR)	UIUC & AWS	2025	困惑度差异作为内在奖励
[8]	Co-rewarding	ICLR 2026	2025	自监督 RL，互补评估信号
[9]	CoRLHF	Expert Systems with Applications	2026	策略-奖励联合迭代优化
[10]	内生奖励	南京大学（周志华团队）	2025	LLM 内含通用奖励函数

推理效率

#	论文	作者/机构	年份	核心贡献
[11]	PURE: Min-Form Credit Assignment	—	2025	最小形式替代求和形式信用分配
[12]	DRQA: Dynamic Reasoning Quota Allocation	—	2026	动态推理配额分配，token 降 31%
[13]	DEER: Dynamic Early Exit in Reasoning Models	—	2026	免训练动态早停
[14]	RLVR with Adaptive Problem Decomposition	人大 & 字节	2026	问题拆解密集奖励

7.10 推荐阅读路线

如果你是该领域的新入门者，建议按以下顺序阅读：

入门路线：
1. DeepSeek-R1 论文（理解 RLVR + GRPO 的核心思想）
   ↓
2. GSPO 论文（理解序列级优化相对于 Token 级的优势）
   ↓
3. DAPO 论文 + 代码（动手复现大模型 RL 训练）
   ↓
4. VAPO 论文（理解价值函数在长链推理中的作用）
   ↓
5. SAR / PURE 论文（理解奖励设计与过度思考问题）
   ↓
6. Kimi k1.5 / QwQ（了解不同团队的技术路线）

如果你对特定主题感兴趣：

想做推理模型训练 → 重点读 DeepSeek-R1 + GSPO + DAPO + VAPO
想设计奖励函数 → 重点读 SAR + PURE + Co-rewarding
想优化推理效率 → 重点读 DRQA + DEER + PURE
想做 Agent RL → 重点读 DeepSWE + AgentPRM + R³L
想训练 MoE 模型 → 重点读 GSPO + DAPO

本节小结

2025—2026 年，Agentic-RL 领域经历了从"对齐辅助工具"到"核心能力激发引擎"的根本转变。几个关键趋势值得关注：

RL 从辅助到核心：RL 不再仅用于"对齐"，而是用于激发预训练中潜在的推理能力
算法从复杂到实用：从 PPO 的四模型架构到 GRPO 的两模型架构，再到 GSPO 的序列级优化和 VAPO 的价值增强方案，训练越来越高效稳定
奖励从外部到内部：从人工标注到可验证奖励再到模型内部信号，奖励设计越来越自洽
关注从"更强"到"更高效"：过度思考问题催生了一系列推理效率优化方案

这些进展正在让 "让模型通过实践自主学习" 这一愿景逐步成为现实。

从零开始学 Agent