10.7 最新研究进展(2025—2026)
📖 "前沿研究的重点不只是又出现了哪些新算法,而是 Agent 训练目标正在发生根本变化:从让模型答得像人,转向让模型在环境里把任务做成。"
⏰ 时效性说明:本节内容更新至 2026 年 4 月 21 日。由于该领域发展极为迅速,建议读者结合 Awesome-RL-Reasoning-Recipes 等开源项目获取最新动态。
概览:从 RLHF 到推理 RL 的范式转变
过去两年(2025—2026)是大模型强化学习领域爆发式发展的两年。以 DeepSeek-R1 登上 Nature 封面为标志,RL 训练 LLM 从"对齐人类偏好"(RLHF)的辅助角色,跃升为激发模型推理能力的核心技术。对 Agent 来说,这个变化更进一步:RL 不只是让模型推理更强,而是让模型学会在工具、环境、反馈和长期目标之间做决策。
本节的阅读主线可以概括为一句话:
SFT 让模型学会“像人一样回答”,Agentic-RL 让模型学会“在环境里把任务做成”。
为什么这件事必须依赖 RL?因为 Agent 面对的不是静态问答,而是一个带反馈的决策过程:它要选择工具、填参数、观察结果、修正计划、控制成本,并在多步轨迹结束后交付可验证结果。
| 核心问题 | SFT 能解决什么 | 为什么还需要 Agentic-RL |
|---|---|---|
| 普通 SFT 不足以训练 Agent | 学会工具调用格式和专家示范路径 | 只模仿已有轨迹,无法从试错中发现更优策略 |
| 工具调用需要环境反馈 | 学会“应该调用哪个工具”的表面模式 | 工具是否可用、参数是否正确、返回是否可信,只有执行后才知道 |
| 多步任务需要轨迹级奖励 | 学会单步动作的局部模式 | 成败往往取决于整条轨迹,而不是某一步看起来是否合理 |
| 结果正确不等于过程可靠 | 学会输出正确答案 | 可能靠偶然、冗余调用或不可复现路径得到结果,生产环境不可接受 |
| 失败轨迹也有训练价值 | 通常只学习“正确示范” | 失败能暴露边界、错误恢复能力和奖励漏洞,是改进策略的关键信号 |
| 数据飞轮让 Agent 越用越强 | 一次性训练静态模型 | 线上轨迹持续产生新反馈,形成采集、评估、训练、部署闭环 |
我们可以用一张时间线来概览关键里程碑:
2024.09 OpenAI o1 发布,首次展示"推理时间计算扩展"(test-time compute scaling)的潜力
2025.01 DeepSeek-R1 发布,纯 RL 训练激发自主推理能力,使用 GRPO 算法
2025.01 Kimi k1.5 发布,128K 长上下文 RL 训练,Long2Short 蒸馏技术
2025.02 QwQ-32B 发布,展示中等规模模型的推理 RL 训练效果
2025.03 DAPO 开源发布,提出可复现的大规模 RL 训练方案
2025.04 VAPO 发布,基于价值增强的 PPO 框架,AIME 2024 达到 60.4 分
2025.06 OpenAI o3 发布,推理能力进一步跃升
2025.07 GSPO 提出(Qwen 团队),序列级策略优化稳定 MoE 训练,训练 Qwen3
2025.08 Self-Aligned Reward (SAR) 提出,利用困惑度信号解决过度思考
2025.10 PURE 框架发布,最小形式信用分配解决奖励破解问题
2025.12 Co-rewarding (ICLR 2026) 提出自监督 RL 学习方案
2026.01 RLVR 新范式:基于问题拆解的高效强化学习方法
2026.02 DRQA 动态推理配额分配,token 成本降低 31%
2026.03 CoRLHF 提出协同策略-奖励联合优化
这些工作可以归纳为以下几个核心研究方向:
| 方向 | 代表工作 | 核心问题 |
|---|---|---|
| 推理模型训练 | DeepSeek-R1, Kimi k1.5, QwQ | 如何通过 RL 激发 LLM 的推理能力? |
| RL 算法改进 | DAPO, VAPO, GSPO, GRPO 变体 | 如何让大模型 RL 训练更稳定、更高效? |
| 奖励设计与反馈 | SAR, Co-rewarding, CoRLHF | 如何设计更好的奖励信号? |
| 过度思考与效率 | PURE, DRQA, DEER | 如何让模型"恰到好处"地推理? |
| Agentic 任务 RL | AgentPRM, R³L, DeepSWE | 如何将 RL 扩展到工具调用等 Agent 任务? |
下面我们逐一深入介绍每个方向的重要论文。
推理模型:纯 RL 训练激发自主推理
7.2.1 DeepSeek-R1:Nature 封面的突破
论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (Nature, 2025) [1]
DeepSeek-R1 是该领域最具里程碑意义的工作。它的核心发现是:
仅通过 RL 训练(不需要人工标注的推理链),模型可以自主涌现出多步推理、自我反思和动态策略调整等高级认知能力。
核心技术要点
-
GRPO 算法:使用组内相对策略优化(详见 10.5 GRPO/GSPO:组内相对策略优化与奖励函数设计),通过组内回答竞争优化策略,避免昂贵的 Critic 网络,总训练成本约 29.4 万美元。
-
多阶段训练框架:
- R1-Zero 阶段:仅使用结果正确性作为奖励(可验证奖励 RLVR),不使用任何 SFT 数据。模型自发涌现出 "Aha moment"——在推理过程中学会自我反思和纠错。
- R1 阶段:在 R1-Zero 基础上,融入少量高质量 SFT 数据和人类偏好对齐,提升综合能力。
-
可验证奖励(RLVR):奖励信号来源于可自动验证的任务(如数学题的最终答案),无需人工标注。
关键实验结果
- 在 MMLU、AIME 2024、LiveCodeBench 等 21 个基准上达到 SOTA
- R1-Zero 展示了"从零开始学推理"的可能性——RL 训练过程中推理链长度自发增长
- 蒸馏到 7B/14B 小模型后仍保持强推理能力
为什么重要?
DeepSeek-R1 证明了两个关键论点:
- RL 可以激发预训练中潜在的推理能力——这些能力在 SFT 或 prompt engineering 中难以充分释放
- 推理能力可以在纯 RL 环境中"涌现"——无需依赖人工标注的推理链作为示范
7.2.2 Kimi k1.5:长上下文 RL 的突破
论文:Kimi k1.5: Scaling Reinforcement Learning with LLMs (2025) [2]
Kimi k1.5 由 Moonshot AI 团队开发,在几个方面做出了独特贡献:
核心创新
-
128K 长上下文 RL 训练:将 RL 训练的上下文窗口从传统的 4K-8K 扩展到 128K tokens,通过部分轨迹重用(Partial Rollout Reuse)提升训练效率。
-
简化 RL 框架:摒弃蒙特卡洛树搜索(MCTS)和价值函数,仅通过改进的在线镜像下降(Online Mirror Descent)直接优化模型,大幅降低计算负担。
-
Long2Short 蒸馏技术:将长上下文推理能力"压缩"到短上下文模型中。具体做法是:
- 先在长上下文设置下训练出强推理能力
- 然后通过知识蒸馏,让短上下文模型学会"精炼"推理
关键结果
- 在 LiveCodeBench 等短任务上超越 GPT-4.1 达 550%
- Long2Short 技术证明了长链推理能力可以被压缩而不显著损失
- 首次展示 128K 上下文窗口的 RL 训练的可行性
7.2.3 QwQ-32B:中等规模的推理 RL
论文:QwQ: Reflect and Question to Understand the World (Alibaba, 2025) [3]
QwQ-32B 是阿里巴巴通义团队发布的中等规模推理模型,其意义在于证明了 32B 参数量级的模型也能通过 RL 训练获得强大的推理能力。
技术特点
- 基于 Qwen2.5-32B 进行 RL 训练
- 在数学推理任务上接近 DeepSeek-R1 的表现
- 训练成本远低于 670B 级别模型
为什么重要?
QwQ 证明了推理 RL 不是"大模型专属"——中等规模模型通过合适的 RL 训练同样能获得显著的推理能力提升,这对资源有限的团队和边缘部署场景具有重大实践价值。
7.2.4 OpenAI o1/o3:推理时间计算扩展
模型:OpenAI o1 (2024.09) / OpenAI o3 (2025.06) [4]
虽然 OpenAI 未公布完整的技术报告,但 o1 和 o3 系列模型在业界产生了深远影响:
核心理念:Test-Time Compute Scaling
传统的 Scaling Law 关注训练时计算扩展(更大模型 + 更多数据)。o1/o3 系列提出了另一个维度:
在推理时投入更多计算(更长的思考链、更多的搜索/验证),也能持续提升模型能力。
这意味着存在两条互补的扩展路径:
- 训练时扩展:增大模型、增加数据
- 推理时扩展:增加推理步骤、验证回路
对领域的影响
- 催生了"推理模型"这一新品类
- 推动了 GRPO、DAPO、VAPO 等面向推理任务的 RL 算法研发
- 引发了对"推理效率"的关注——过度思考(Overthinking)问题浮出水面
RL 算法改进:让大模型 RL 训练更稳定高效
7.3.1 DAPO:大规模可复现的 RL 训练
论文:DAPO: An Open-Source LLM Reinforcement Learning System at Scale (2025) [5]
DAPO(Decoupled Clip and Dynamic Sampling PPO)由字节跳动 Seed 团队提出,核心目标是解决大规模 RL 训练的可复现性问题。
核心技术
-
解耦裁剪(Decoupled Clipping):传统 PPO 使用对称裁剪 ,DAPO 将上下裁剪边界分离:
- (较大):鼓励对好回答的探索
- (较小):严格抑制坏回答
这种不对称设计让模型在"保守抑制坏行为"的同时"大胆探索好行为"。
-
动态采样(Dynamic Sampling):根据训练进度动态调整每个问题的采样数量:
- 训练初期:多采样,增加探索
- 训练后期:少采样,精细优化
-
Token 级策略约束:在 token 级别而非序列级别施加 KL 约束,更精细地控制策略偏移。
开源贡献
DAPO 完整开源了训练代码和数据集(基于 Qwen2.5-32B),是目前最具可复现性的大规模 RL 训练方案之一。
7.3.2 VAPO:基于价值增强的 PPO
论文:VAPO: Efficient and Reliable RL Framework for Advanced Reasoning Tasks (ByteDance Seed, 2025) [6]
VAPO(Value-based Augmented PPO)是 DAPO 的后续工作,专门针对长链推理任务中的难题。
核心问题
长链推理(如数学证明、复杂编程)中,RL 训练面临三大挑战:
- 价值模型偏差:Critic 网络对长序列的价值估计不准
- 异构序列长度:同一批次中回答长度差异极大
- 稀疏奖励:只有最终答案才有奖励信号
核心技术
-
价值预训练(Value Pretraining):使用蒙特卡洛回报预训练 Critic 网络,减小初始化偏差。
-
解耦 GAE(Decoupled GAE):
- 对价值网络使用 (低偏差、高方差)
- 对策略网络使用 (平衡偏差与方差)
-
长度自适应 GAE(Length-Adaptive GAE):根据序列长度动态调整 :
其中 为序列长度。长序列使用更大的 (减少偏差),短序列使用更小的 (减少方差)。
- Clip-Higher 探索:使用不对称裁剪 , ,鼓励多样性采样。
关键结果
| 模型 | AIME 2024 | 训练步数 | 稳定性 |
|---|---|---|---|
| DeepSeek-R1-Zero (671B) | ~50 | 大量 | 偶有崩溃 |
| DAPO (32B) | ~50 | 中等 | 较稳定 |
| VAPO (32B) | 60.4 | ~5,000 | 无崩溃 |
VAPO 仅用 Qwen-32B 和 5,000 步训练就超越了 671B 的 DeepSeek-R1-Zero,且训练过程完全无崩溃。
7.3.3 GRPO 变体与改进
自 DeepSeek-R1 提出 GRPO 以来,多篇论文对其进行了改进:
| 改进方向 | 代表工作 | 解决的问题 |
|---|---|---|
| 序列级优化 | GSPO [15] | Token 级重要性权重引入高方差噪声,导致 MoE 模型训练坍塌。GSPO 将重要性采样提升到序列级,训练 Qwen3 |
| 移除均值归一化 | Dr. GRPO | 原始 GRPO 的组内均值归一化会引入偏差 |
| 自适应组大小 | Adaptive GRPO | 固定组大小不适合所有问题难度 |
| Token 级优势 | Token-level GRPO | 序列级优势对长序列不够精细 |
| 在线/离线混合 | Hybrid GRPO | 纯在线采样效率低 |
其中 GSPO 是最具实践影响力的改进——它已被阿里巴巴 Qwen 团队用于训练 Qwen3 系列模型。关于 GSPO 的详细原理和实现,请参阅 10.5 GRPO/GSPO:组内相对策略优化与奖励函数设计。
奖励设计:如何告诉模型什么是好的推理?
奖励函数是 RL 训练的"灵魂"。2025—2026 年,奖励设计出现了三个重要方向。
7.4.1 Self-Aligned Reward (SAR):利用模型内部信号
论文:Self-Aligned Reward: Towards Effective and Efficient Reasoners (UIUC & Amazon AWS, 2025) [7]
核心思想
SAR 的核心洞察是:模型内部的困惑度(Perplexity)差异可以作为高质量的奖励信号。
具体来说,SAR 计算两种条件下的困惑度差异:
其中:
- :给定问题 时生成回答 的困惑度
- :将回答 视为独立文本时的困惑度
直觉解释:
- 高 SAR:回答高度依赖于问题(是针对性的、简洁的回答)
- 低 SAR:回答与问题关联弱(可能是冗长、泛泛的内容)
为什么有效?
- 无需外部奖励模型:利用模型自身的语言建模能力
- 细粒度评分:可以区分"正确且简洁"vs"正确但冗长"
- 跨任务泛化:在数学数据上训练,在逻辑推理等非数学任务上同样有效
实验效果
在 4 个基础模型和 7 个数据集上:
- 准确率平均提升 4%
- 输出长度减少 30%
7.4.2 Co-rewarding:自监督 RL 学习
论文:Co-rewarding: Self-Supervised RL for LLM Reasoning (ICLR 2026) [8]
核心问题
Self-rewarding RL(让模型自己给自己打分)容易出现训练坍塌——模型学会生成"容易给自己高分"而非"真正好"的回答。
解决方案
Co-rewarding 引入互补监督信号:
- 对同一问题生成改写版本
- 使用改写问题的回答作为原问题回答的辅助评估
- 两个方向的评估互相约束,防止坍塌
关键结果
- 在推理任务上性能提升 12.9%(无需真实标签)
- 训练过程显著更稳定
7.4.3 CoRLHF:协同策略-奖励联合优化
论文:CoRLHF: Reinforcement Learning from Human Feedback with Cooperative Policy-Reward Optimization (Expert Systems with Applications, 2026) [9]
核心创新
传统 RLHF 分两步:先训练奖励模型,再用奖励模型训练策略。这导致了分布不匹配问题——奖励模型训练时看到的数据分布与策略优化时生成的数据分布不一致。
CoRLHF 将策略优化和奖励模型优化合并为一个迭代过程:
- 策略生成新数据
- 奖励模型在新数据上更新
- 策略在更新后的奖励上优化
- 循环迭代
这种方法桥接了 RLHF 和 RLAIF,在减少人工反馈依赖的同时保持了对齐质量。
7.4.4 内生奖励:LLM 是自带的奖励模型
论文:周志华团队相关工作 (南京大学, 2025) [10]
颠覆性发现
这项研究发现:LLM 的 next-token prediction 能力本身就蕴含了通用奖励函数(内生奖励,Endogenous Reward)。
也就是说,预训练过程中学到的语言模型分布已经隐式编码了"什么是好的输出"的判断能力,无需额外训练奖励模型。
实践意义
- 减少了 RLHF pipeline 中的一个组件(奖励模型)
- 降低了误差累积的风险
- 在多个对齐基准上超越传统奖励模型
过度思考与推理效率
随着推理模型的普及,一个新问题浮出水面:过度思考(Overthinking)——模型在简单问题上也生成冗长的推理链,浪费计算资源且可能降低准确率。
7.5.1 问题分析:为什么推理模型会"想太多"?
过度思考的根源在于 RLVR(基于可验证奖励的 RL)的奖励结构:
只要最终答案正确,不管推理过程多长、多冗余,模型都会获得同样的奖励。
这导致了两个问题:
- 奖励膨胀:标准 RL 的求和形式信用分配使模型偏好生成更多步骤
- 无差别激励:无法区分"简洁正确"和"冗长正确"
7.5.2 PURE:最小形式信用分配
论文:Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning (2025) [11]
核心洞察
传统 RL 将轨迹价值定义为未来奖励的总和:
PURE 提出用最小值替代总和:
直觉:推理链的强度取决于最薄弱的一环。
| 方式 | 训练信号 | 后果 |
|---|---|---|
| 求和形式 | "多生成'还行'的步骤来堆分" | 冗长、循环论证 |
| 最小形式 | "每一步都必须正确,一步错满盘输" | 简洁、精确 |
实现方法
PURE 通过温度参数 将过程奖励转换为新奖励,使标准 RL 算法(PPO/GRPO)的求和公式在数学上等效于取最小值——无需修改底层算法,只需奖励预处理。
实验结果
- 求和形式训练几乎立即崩溃
- 最小形式训练稳定提升
- 样本效率提升 2-3 倍
7.5.3 DRQA:动态推理配额分配
论文:DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models (2026) [12]
核心观察
一个有趣的发现:当模型批量处理多个问题时(而非逐个处理),总输出长度显著缩短——模型似乎能隐式区分问题难度并"压缩"简单问题的推理。
方法
-
构建偏好数据:
- 单独生成的推理链(冗长版)
- 批量生成的推理链(精炼版)
- 按正确性和简洁性标注偏好
-
使用 GRPO 训练模型同时优化逻辑正确性和推理简洁性
效果
- 推理 token 成本降低 31%
- 准确率反而提升
- 在简单问题上缩短最多,复杂问题保持充分推理
7.5.4 DEER:动态早停推理
论文:Dynamic Early Exit in Reasoning Models (DEER) (2026) [13]
DEER 是一种免训练的推理时优化方法:
- 在推理过程中实时监控模型置信度
- 当模型对当前答案高度自信时触发早停
- 简单问题快速结束,复杂问题继续思考
效果
- 推理链长度缩短 19.1%—80.1%
- 准确率提升 0.3%—5.0%
- 无需额外训练,即插即用
7.5.5 方案对比
| 方法 | 核心思想 | 是否需要训练 | 效率提升 | 准确率影响 |
|---|---|---|---|---|
| SAR | 困惑度差异作为奖励 | 是(RL训练) | 长度-30% | +4% |
| PURE | 最小形式信用分配 | 是(奖励预处理) | 2-3x 样本效率 | 显著提升 |
| DRQA | 模拟批量推理的配额分配 | 是(GRPO训练) | token-31% | 提升 |
| DEER | 置信度触发早停 | 否(推理时) | 长度-19%~80% | +0.3%~5% |
| 简洁 RL | 二阶段精炼训练 | 是(二阶段RL) | 长度显著缩短 | 不降反升 |
RLVR:基于可验证奖励的强化学习
RLVR(Reinforcement Learning with Verifiable Rewards) 是 2025—2026 年最热门的研究方向之一,也是 DeepSeek-R1 成功的关键。
7.6.1 什么是 RLVR?
与传统 RLHF 依赖人工标注的偏好数据不同,RLVR 使用可自动验证的信号作为奖励:
| 对比维度 | RLHF | RLVR |
|---|---|---|
| 奖励来源 | 人工标注偏好 | 自动验证(如答案对错) |
| 标注成本 | 高 | 极低 |
| 适用任务 | 开放式(对话、写作) | 有明确正确答案(数学、代码) |
| 扩展性 | 受标注速度限制 | 几乎无限扩展 |
7.6.2 RLVR 的问题与改进
问题拆解框架(人大 & 字节, 2026)[14]:
传统 RLVR 仅在最终答案处给出奖励(稀疏奖励),导致长链推理中的信用分配困难。该工作提出 Decomposer-Reasoner 框架:
- Decomposer:将复杂问题拆解为子问题
- Reasoner:逐步解决子问题
- 密集奖励:每个子问题的解决都有可验证的奖励
这种方法将稀疏奖励转化为密集奖励,显著提升了 RL 训练的探索效率。
Agentic 任务的 RL 训练
前面讨论的大多是推理任务(数学、代码)的 RL 训练。一个更前沿的方向是将 RL 应用到真正的 Agentic 任务——需要工具调用、环境交互、多步决策的场景。
为什么 Agent 比普通推理模型更需要 RL?
数学推理的奖励通常来自最终答案;Agent 的奖励则来自环境状态变化。例如:
用户目标:把本周销售数据汇总成表格并发给团队
Agent 轨迹:
1. 打开数据源
2. 查询本周订单
3. 调用脚本清洗数据
4. 生成表格
5. 检查异常值
6. 发送邮件
最终奖励:邮件是否发出、表格是否正确、成本是否可接受、是否误操作
这类任务很难只靠 SFT 解决,原因有四个:
- 动作空间是开放的:同一个目标可能有多条完成路径,专家示范只覆盖其中一小部分。
- 反馈必须来自环境:工具报错、权限不足、网页元素变化、API 返回异常,训练数据里不可能穷尽。
- 奖励天然是轨迹级的:第 3 步看起来正确,但如果第 5 步没有检查异常值,最终结果仍然可能失败。
- 可靠性不等于正确率:一次成功不代表策略可靠;生产系统需要低方差、可解释、可恢复的执行过程。
因此,Agentic-RL 的核心不是“让模型多想几步”,而是让模型在交互中学会:什么动作真的改变了环境,什么动作只是看起来合理。
Agentic-RL 的奖励信号:从答案对错到过程可控
在 Agent 任务中,奖励通常需要同时覆盖结果和过程:
| 奖励维度 | 例子 | 解决的问题 |
|---|---|---|
| 结果奖励 | 文件是否生成、测试是否通过、邮件是否发送 | 任务是否完成 |
| 工具奖励 | 工具名是否存在、参数是否合规、调用是否成功 | 工具调用是否可靠 |
| 过程奖励 | 是否检查中间结果、是否处理异常、是否避免重复调用 | 过程是否可复现 |
| 成本奖励 | token、工具调用次数、延迟、外部 API 成本 | 是否具备生产经济性 |
| 安全奖励 | 是否触碰敏感操作、是否需要人工确认 | 是否可安全部署 |
这解释了为什么“最终结果正确”并不等于“Agent 已经学会”。如果模型用十次无意义搜索才碰巧找到答案,结果奖励可能给高分,但过程奖励会指出它的策略不可扩展。
7.7.1 AgentPRM:过程奖励模型用于 Agent 评估
在多轮 Agent 任务(如网页导航、API 调用)中,仅评估最终结果不够——需要评估每一步决策的质量。AgentPRM 引入了过程奖励模型(Process Reward Model) 来评估 Agent 的中间决策。
7.7.2 R³L:反思-重试 RL
R³L(Reflect-then-Retry RL) 针对 Agent 任务中的失败恢复:
- 当 Agent 执行失败时,生成语言反馈诊断错误原因
- 从失败点重新开始,利用反馈避免重蹈覆辙
- 大幅减少了 rollout 成本
7.7.3 DeepSWE:软件工程 Agent 的 RL 训练
DeepSeek 团队的 DeepSWE 展示了 RL 训练的软件工程 Agent 可以匹配闭源模型的 SWE-bench 表现,证明了 RL 在复杂 Agentic 任务中的潜力。
7.7.4 从失败轨迹中学习:Agentic-RL 的隐性优势
失败轨迹在传统 SFT 中常被丢弃,因为它们不是“标准答案”。但在 Agentic-RL 中,失败轨迹反而是高价值数据:
| 失败类型 | 暴露的问题 | 可转化的训练信号 |
|---|---|---|
| 工具不存在 | 模型幻觉工具能力 | 惩罚非法动作,强化工具 schema 遵循 |
| 参数错误 | 没有理解工具约束 | 奖励参数校验和自我修正 |
| 中途卡住 | 缺少错误恢复策略 | 训练反思、重试和降级路径 |
| 结果偶然正确 | 过程不可复现 | 引入过程奖励和成本惩罚 |
| 过度调用工具 | 不会权衡收益与成本 | 引入效率奖励,避免空转 |
这也是 Agentic-RL 与普通 SFT 的关键分界线:SFT 学习成功示范,RL 学习成功与失败之间的差异。真正强的 Agent 不是从不失败,而是能识别失败、解释失败,并在下一步改变策略。
2026 研究路线图:GRPO 家族正在解决什么问题?
到 2026 年,Agentic-RL 的研究重点已经从“GRPO 能不能训出推理能力”转向更细的问题:如何让 GRPO 类方法在真实 Agent 环境中更稳、更省、更能泛化。如果只按论文发布时间阅读,很容易被大量新名词淹没;更好的方式是按“瓶颈 → 方法 → 适用场景”来组织。
7.8.1 信用分配:到底该奖励哪一步?
标准 GRPO 把整条回答的奖励平均影响到所有 token 或所有步骤,这在数学短题上尚可接受,但在 Agent 轨迹里会变得非常粗糙:工具参数填错可能只发生在一步,但最终失败奖励会惩罚整条轨迹。
| 方法 | 核心思想 | 适用场景 |
|---|---|---|
| T-STAR | 将多条链式轨迹组织成认知树,把轨迹级奖励反传到关键分叉点 | 多轮规划、网页导航、具身任务 |
| GRPO-VPS | 用模型在步骤边界处对正确答案的信念变化作为过程监督 | 数学推理、可验证答案任务 |
| DelTA | 用判别式 token 权重放大正负样本之间真正不同的 token | 长 CoT、格式词过多的推理任务 |
| SRPO | 自动定位错误步骤,从该状态重置并采样反事实后续 | 长链推理、容易一步错满盘输的任务 |
| GROW | 将完整轨迹拆成状态-动作对,在样本间计算相对优势 | 开放世界 VLM Agent、Minecraft 类环境 |
这些工作的共同方向是:从“整条轨迹一个分数”走向“关键状态、关键动作、关键 token 的细粒度归因”。对生产 Agent 来说,这比单纯提高 benchmark 分数更重要,因为它决定了模型能否学会“哪里错了”和“下一步该怎么改”。
7.8.2 探索与多样性:不要让多采样变成同质答案
GRPO 依赖同一 prompt 的多条采样来估计相对优势。如果采样组里的回答都差不多,奖励方差就会消失,训练计算被白白浪费。
| 方法 | 解决的问题 | 关键机制 |
|---|---|---|
| UCPO | GRPO 只优化 Pass@1,忽视 Pass@K 多样性 | 鼓励“均匀正确策略”,把概率质量分配给更多正确路径 |
| Selective Rollout | 同组轨迹前缀已经收敛但仍继续 rollout | 监控轨迹前缀相似度,提前终止无效采样组 |
| Adaptive GRPO | 固定组大小不适合所有题目难度 | 简单题少采样,困难题多采样 |
| Tsallis / GARL / PAFT | 初始成功率太低时 RLVR 没有正样本信号 | 在 RLVR 和似然训练之间连续插值,先让模型找到成功路径 |
对 Agent 训练尤其要关注这一点:如果环境很难、初始策略几乎从不成功,标准 RLVR 会陷入“全 0 奖励”的冷启动问题;如果环境太简单,采样组又会快速变成“全 1 奖励”,同样没有梯度。
7.8.3 稳定性:为什么 RLVR 训练会突然停滞或坍塌?
大模型 RL 不是简单把奖励函数写好就能稳定训练。2026 年的一批工作开始从优化几何和梯度边界解释 GRPO 的稳定性问题。
| 方法 | 核心贡献 | 实践启示 |
|---|---|---|
| LPO | 将 GRPO 解释为响应概率单纯形上的投影问题 | 可以用更合适的散度替代固定 KL/clip 设计 |
| Pair-GRPO | 将偏好约束显式化,减少梯度方向模糊 | 适合偏好对齐、成对比较任务 |
| NSR | 发现硬截断丢弃边界外梯度会导致优化停滞 | 在 clip 边界附近随机保留部分梯度,提升稳定性 |
| VAPO | 用价值增强与长度自适应 GAE 稳定长链推理 | 当任务很长、奖励很稀疏时,Critic 仍然有价值 |
这说明 GRPO 的“无需 Critic”不是绝对真理,而是一个成本与稳定性的折中:短任务、可验证奖励、组内方差充足时 GRPO 很合适;长任务、稀疏奖励、跨状态信用分配困难时,VAPO、过程奖励或重置采样可能更可靠。
7.8.4 Agent 环境扩展:从文本推理到真实世界交互
最前沿的趋势是把 RL 从数学/代码扩展到真实 Agent 环境:网页、终端、桌面、游戏、多 Agent 协作和真实 API。
| 场景 | 代表方向 | 奖励来源 | 主要难点 |
|---|---|---|---|
| 软件工程 Agent | DeepSWE、SWE-bench RL | 测试是否通过、补丁是否正确 | 长上下文、仓库理解、错误恢复 |
| 开放世界 VLM Agent | GROW、Minecraft / GUI 环境 | 状态变化、任务完成度 | 视觉状态压缩、动作空间巨大 |
| 真实工具环境 | Agent-World、MCP 任务合成 | 工具执行结果、环境断言 | 自动构造可验证任务 |
| 多 Agent 编排 | Orchestration RL | 总任务成功率、通信成本 | 信用分配跨 Agent、跨消息 |
| Computer Use | 桌面/浏览器控制 RL | 屏幕状态、文件/网页变化 | 安全边界、误操作成本 |
这类研究的核心不再是“答案对不对”,而是“环境有没有按目标发生改变”。因此,未来 Agentic-RL 的训练数据格式会从纯文本 (prompt, response) 扩展为:
(state_t, action_t, observation_t, reward_t, done_t, metadata_t)
其中 state_t 可能是网页 DOM、终端输出、截图、数据库状态或多 Agent 消息板;action_t 可能是工具调用、鼠标点击、shell 命令或委派消息;reward_t 则来自单测、断言、环境 diff、人工审批或安全策略。
7.8.5 如何选择研究路线?
| 你的目标 | 优先关注 | 不建议一开始投入 |
|---|---|---|
| 训练数学/代码推理模型 | GRPO、GSPO、DAPO、VAPO、UCPO、DelTA | 复杂多 Agent 编排 RL |
| 训练工具调用 Agent | AgentPRM、R³L、Selective Rollout、T-STAR、GRPO-VPS | 只优化最终答案的 RLVR |
| 训练 GUI / Computer Use Agent | GROW、状态-动作分解、过程奖励、环境断言 | 纯文本 CoT 奖励 |
| 降低训练成本 | Selective Rollout、动态组大小、LoRA/QLoRA、短轨迹 curriculum | 大规模全参数 PPO |
| 提升训练稳定性 | KL/clip 监控、NSR、LPO、Pair-GRPO、VAPO | 无约束地提高学习率和采样温度 |
| 解决冷启动 | SFT warmup、Tsallis 连续体、课程学习、合成简单任务 | 直接在高难环境做纯 RL |
一个实用判断标准是:
如果任务能被单个最终答案验证,先从 GRPO/RLVR 开始;如果任务需要多步环境交互,就尽早引入过程奖励、轨迹重置和状态-动作级训练。
开放挑战与未来方向
尽管进展迅速,该领域仍面临诸多开放挑战:
7.8.1 奖励破解(Reward Hacking)
模型可能找到奖励函数中的漏洞来"作弊",而非真正提升能力。例如:
- 生成"看起来像推理"但实际是胡说八道的长文本
- 利用格式技巧(如特定关键词)获得高奖励
- 在自我评估中学会"自欺欺人"
7.8.2 训练稳定性
大模型 RL 训练仍然不够稳定:
- KL 散度管理:策略偏移过大会导致灾难性遗忘
- 奖励规模:不同奖励维度的尺度不一致
- 数据多样性:训练数据的多样性直接影响探索质量
7.8.3 泛化能力
当前 RL 训练的推理能力主要在数学和代码领域验证,向以下领域的泛化仍需探索:
- 开放域推理(科学推理、常识推理)
- 多模态推理(视觉-语言、视频理解)
- 跨语言推理
7.8.4 效率与成本
RL 训练的计算成本仍然很高:
- 大量的 rollout 采样
- 多个模型(Policy、Reference、可能的 Critic)同时在显存中
- 长序列推理的显存和时间开销
7.8.5 未来展望
基于当前的研究趋势,我们预期以下方向将成为热点:
| 方向 | 预期进展 |
|---|---|
| 内部信号挖掘 | 更多利用模型自身信号(如 SAR、内生奖励)替代外部奖励模型 |
| 自我进化训练 | 模型自主生成训练数据和奖励信号的闭环系统 |
| 多模态 RL | 将推理 RL 扩展到视觉、语音等多模态场景 |
| Agentic RL 扩展 | 将 RL 从推理任务扩展到工具调用、环境交互等 Agent 场景 |
| 高效训练 | 减少 rollout 成本、提升样本效率的新算法 |
| 理论基础 | 更深入理解 RL 如何激发 LLM 推理能力的理论分析 |
论文列表
以下是本节涉及的主要论文,按主题分类:
推理模型
| # | 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|---|
| [1] | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL | DeepSeek AI | 2025 | 纯 RL 训练激发自主推理,GRPO 算法 |
| [2] | Kimi k1.5: Scaling Reinforcement Learning with LLMs | Moonshot AI | 2025 | 128K 长上下文 RL,Long2Short 蒸馏 |
| [3] | QwQ: Reflect and Question to Understand the World | Alibaba | 2025 | 中等规模推理 RL |
| [4] | OpenAI o1/o3 System Card | OpenAI | 2024/2025 | 推理时间计算扩展 |
RL 算法
| # | 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|---|
| [5] | DAPO: An Open-Source LLM RL System at Scale | ByteDance Seed | 2025 | 解耦裁剪 + 动态采样,开源可复现 |
| [6] | VAPO: Efficient and Reliable RL for Advanced Reasoning | ByteDance Seed | 2025 | 价值预训练 + 长度自适应 GAE,AIME 60.4 |
| [15] | GSPO: Group Sequence Policy Optimization | Alibaba (Qwen Team) | 2025 | 序列级重要性采样,稳定 MoE 训练,训练 Qwen3 |
奖励设计
| # | 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|---|
| [7] | Self-Aligned Reward (SAR) | UIUC & AWS | 2025 | 困惑度差异作为内在奖励 |
| [8] | Co-rewarding | ICLR 2026 | 2025 | 自监督 RL,互补评估信号 |
| [9] | CoRLHF | Expert Systems with Applications | 2026 | 策略-奖励联合迭代优化 |
| [10] | 内生奖励 | 南京大学(周志华团队) | 2025 | LLM 内含通用奖励函数 |
推理效率
| # | 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|---|
| [11] | PURE: Min-Form Credit Assignment | — | 2025 | 最小形式替代求和形式信用分配 |
| [12] | DRQA: Dynamic Reasoning Quota Allocation | — | 2026 | 动态推理配额分配,token 降 31% |
| [13] | DEER: Dynamic Early Exit in Reasoning Models | — | 2026 | 免训练动态早停 |
| [14] | RLVR with Adaptive Problem Decomposition | 人大 & 字节 | 2026 | 问题拆解密集奖励 |
推荐阅读路线
如果你是该领域的新入门者,建议按以下顺序阅读:
入门路线:DeepSeek-R1(理解 RLVR + GRPO 核心思想)→ GSPO(序列级优化优势)→ DAPO + 代码(动手复现)→ VAPO(价值函数在长链推理中的作用)→ SAR / PURE(奖励设计与过度思考)→ Kimi k1.5 / QwQ(不同团队技术路线)
如果你对特定主题感兴趣:
- 想做推理模型训练 → 重点读 DeepSeek-R1 + GSPO + DAPO + VAPO
- 想设计奖励函数 → 重点读 SAR + PURE + Co-rewarding
- 想优化推理效率 → 重点读 DRQA + DEER + PURE
- 想做 Agent RL → 重点读 DeepSWE + AgentPRM + R³L
- 想训练 MoE 模型 → 重点读 GSPO + DAPO
2026 年 4 月:Agent 能力的关键跃迁
⏰ 时效性补充:本节内容更新至 2026 年 4 月 21 日,新增 2026 年 4 月最新进展。
Agent 基准测试飙升:从"玩具"到"生产力"
斯坦福 HAI 发布《2026 年人工智能指数报告》,数据显示 Agent 能力正在以惊人速度接近人类水平:
| 基准测试 | 2024 年水平 | 2026 年 4 月水平 | 变化 |
|---|---|---|---|
| SWE-bench Verified(代码 Bug 修复) | ~20% | ~83.7%(DeepSeek V4) | +63pp |
| Terminal-Bench 2.0(终端 Agent) | ~20% | 77.3% | +57pp |
| OSWorld(电脑使用) | <20% | 66.3% | +46pp |
| 网络安全 Agent | ~15% | 93% | +78pp |
| SWE-bench Pro(更难版本) | — | 58.4%(GLM-5.1) | 新基准 |
"锯齿前沿"现象(斯坦福报告命名):AI 能在 IMO 数学竞赛中拿金牌,但读模拟时钟的正确率只有 50.1%——强项极强,弱项极弱。这意味着在部署 Agent 时,不能依赖模型自动识别边界,需要显式约束任务范围。
TurboQuant:6 倍 KV Cache 压缩
Google Research 发布 TurboQuant 算法,将 KV Cache 内存需求降低 6 倍以上,且无精度损失。这对 Agentic-RL 训练和 Agent 部署都有直接影响:
| 影响方向 | 优化前 | TurboQuant 后 |
|---|---|---|
| 长轨迹 RL 训练显存 | 训练 8K token 轨迹需 ~40GB | ~7GB,单卡 RTX 4090 可训练 |
| 推理并发 Agent 数 | H100 80GB 最多 ~32 个 128K 会话 | ~192 个会话(6×) |
| 超长任务经济性 | GLM-5.1 的 6000+ 工具调用成本极高 | 成本下降到可商业化水平 |
Claude Computer Use:桌面控制从实验到生产
2026 年 4 月,Anthropic 将 Computer Use 扩展至 Windows 平台(3 月仅支持 macOS),标志着 Agent 操控桌面应用进入生产就绪阶段:
能力清单(2026.04 版):
✅ 打开任意应用程序
✅ Chrome 浏览器导航 + 表单填写
✅ 运行开发工具(Terminal / VS Code / Jupyter)
✅ 电子表格操作(Excel / Google Sheets)
✅ 多步骤跨应用任务(如"从邮件中提取数据,填入表格,发送汇总报告")
✅ 与 Dispatch 集成,支持手机→桌面任务移交
当前限制:
⚠️ 无法处理需要特殊硬件权限的操作(如驱动安装)
⚠️ 长时间任务仍有失误风险(需要人工审批节点)
对 Agentic-RL 训练的启示:Computer Use 产生的轨迹数据(截图→动作序列)是全新的 Agent SFT/RL 数据类型,与文本轨迹有本质区别:
- 奖励信号:任务完成(截图匹配目标状态)而非文本正确性
- 数据格式:
(截图, 鼠标/键盘动作)而非(文本, 工具调用) - 难点:探索空间远大于纯文本 Agent
开发者生存指南(2026 年 4 月版)
斯坦福报告揭示:22-25 岁软件开发者就业自 2024 年起下滑 20%,入门级岗位被精准替代。对于 Agent 开发者:
| 优先级 | 方向 | 核心动作 |
|---|---|---|
| 🥇 最高 | Agent 工程化 | LangGraph + MCP + Tool Use,构建可靠 Agent 系统 |
| 🥈 高 | 长期任务 Agent | 掌握 Checkpoint、HITL、6000+ 循环的工程方案 |
| 🥉 中 | Agentic-RL 微调 | 用本章介绍的 GRPO/GSPO 为私有任务训练专用 Agent |
| ⭐ 长期 | AI 判断力 | 知道 Agent 能做什么、不能做什么,比会用 AI 更重要 |
小结
2025—2026 年,Agentic-RL 领域经历了从"对齐辅助工具"到"核心能力激发引擎"的根本转变。几个关键趋势值得关注:
- RL 从辅助到核心:RL 不再仅用于"对齐",而是用于激发预训练中潜在的推理、规划和交互能力
- 训练目标从回答转向完成任务:SFT 让模型学会复现专家轨迹,Agentic-RL 让模型在环境反馈中优化整条执行轨迹
- 算法从复杂到实用:从 PPO 的四模型架构到 GRPO 的两模型架构,再到 GSPO 的序列级优化和 VAPO 的价值增强方案,训练越来越高效稳定
- 奖励从最终答案走向过程可控:从人工标注到可验证奖励、过程奖励和模型内部信号,奖励设计越来越能刻画真实 Agent 行为
- 失败轨迹成为资产:工具错误、恢复失败、过度调用和边界案例不再只是日志噪声,而是训练更可靠 Agent 的核心数据
- 关注从"更强"到"更可靠、更便宜":过度思考、长轨迹成本和安全边界成为 Agentic-RL 走向生产的关键问题
这些进展正在让 "让模型通过实践自主学习" 这一愿景逐步成为现实,也为下一节的 Agent 专项微调和第 10.9 节的数据飞轮奠定基础。
📰 最新论文速递
🗓️ 本节由每日自动更新任务维护,最近更新:2026 年 6 月 24 日
T-STAR:推理走链、学习构树——多轮 Agent 策略优化新框架
发表:2026 年 4 月 8 日(v2:4 月 15 日)| arXiv:2604.07165
核心贡献:针对多步 Agent 任务中奖励稀疏、步骤信用分配不均的问题,提出 T-STAR 框架。其核心思想是推理时走链式轨迹、学习时构建认知树(Cognitive Tree),通过树状结构揭示轨迹间的隐式关联,将轨迹级奖励反向传播到关键步骤,再用"上下文思维嫁接"在关键分叉点合成纠正性推理,从而实现精准的策略更新。在具身、交互、推理、规划四类任务基准上,相比 GRPO 等基线取得一致性提升。
与本章关系:直接改进 10.5 节 GRPO 算法中"所有步骤平均分配信用"的缺陷,是多轮 Agent RL 训练中步骤级信用分配的前沿方案。
Agent-World:真实世界环境的可扩展合成与自进化 Agent 训练
发表:2026 年 4 月 20 日 | arXiv:2604.18292
核心贡献:提出 Agent-World 自进化训练竞技场,从数千个真实世界环境主题出发,基于 MCP 协议自动发现并合成具有可控难度的可验证任务,再通过多环境强化学习 + 自进化竞技场机制让 Agent 策略与环境协同进化。Agent-World-8B/14B 在 23 个 Agent 基准上超越强专有模型。
与本章关系:是 10.9 节「Agentic 数据飞轮」的论文级实现案例——用真实世界任务的自动合成替代人工数据标注,同时实现数据飞轮的自进化闭环。
GRPO-VPS:用可验证过程监督增强组相对策略优化
发表:2026 年 4 月 22 日 | arXiv:2604.20659
核心贡献:针对 GRPO 算法对推理轨迹中所有步骤进行无差别信用分配、导致难以识别有效推理步骤和产生过度思考的问题,提出 GRPO-VPS。核心方法是通过追踪模型在推理轨迹各步骤边界处对正确答案的条件概率(即模型「信念」的变化),将这种可解释的进度度量作为分步过程监督信号,从而将轨迹级奖励精细化到步骤级——全程无需额外辅助模型或 Monte Carlo 采样。在数学任务上精度最高提升 +2.6 点,推理链长度最多缩减 13.7%,跨多种模型规模均验证了泛化能力。
与本章关系:直接改进 10.5 节 GRPO 算法「无差别信用分配」的核心缺陷,与同节 T-STAR 的认知树方法形成互补——T-STAR 用树结构构建步骤关联,GRPO-VPS 用信念概率提供步骤级信号,共同代表 2026 年步骤级 RL 训练的两条主流技术路线。
重新审视 LVLM 中的强化微调:收敛性、奖励分解与泛化
发表:2026 年 4 月 21 日 | arXiv:2604.19857
核心贡献:首次为大视觉语言模型(LVLM)的强化微调建立严格理论框架。提出工具增强马尔可夫决策过程(TA-MDP),证明 GRPO 在复合可验证奖励(格式合规+答案准确+工具可执行)下以 速率收敛到一阶稳定点;建立「奖励分解定理」,量化逐组件优化与联合优化的次优性间隙,指导实践中的奖励设计;通过 PAC-Bayes 泛化界从理论上解释了工具增强策略在分布外任务上的强大迁移能力。
与本章关系:是 10.5 节 GRPO 算法的理论补充——从收敛性和泛化两个维度为 RLVR 范式建立了严格数学基础,帮助读者理解「为什么 GRPO 有效」以及「多奖励分量如何交互」。
推理技能复用:少用 Token、更高准确率的推理新范式
发表:2026 年 4 月 23 日 | ACL 2026 工业轨道 | arXiv:2604.21764
核心贡献:针对推理模型冗长 CoT 导致的 token 消耗过大问题,提出从广泛试错探索中提炼并存储可复用的"推理技能",在推理时检索相关技能以引导决策,避免每次从零推理。在编程和数学推理任务上同时实现 token 用量显著降低与准确率提升,兼顾精度与效率,在工业部署中具有明显的经济价值。
与本章关系:对应本章「推理模型效率优化」与 10.5 节 chain-of-thought RL 知识点,是将技能提取思路(类 Voyager)移植到推理 LLM 压缩场景的创新实践,为高效推理 Agent 的部署提供了新路径。
基于 Tsallis 损失连续体训练推理模型:超越 GRPO 的自适应监督方法
发表:2026 年 4 月 28 日 | arXiv:2604.25907
核心贡献:本文提出用 Tsallis q-对数定义的损失函数族 ,在 RLVR(强化学习可验证奖励)与对数边际似然之间构建连续插值空间,同时引入 GARL(梯度放大强化学习)和 PAFT(后验衰减微调)两种蒙特卡洛估计器。关键发现是:当初始成功率 很低时,RLVR 训练会停滞,而 Tsallis 连续体允许模型按需动态调整"对成功路径的偏向程度",在 HotPotQA 上实现 maj@16=47.9,相比 GRPO 提升 14.4 个百分点。
与本章关系:直接拓展了 10.5 节中 GRPO 算法的理论边界,给出了在低初始成功率场景下替代或增强 GRPO 的一个可行统一框架。
UCPO:打破 RLVR 对多样性的漠视——均匀正确策略优化
发表:2026 年 5 月 1 日 | arXiv:2605.00365
核心贡献:本文揭示了 GRPO 等 RLVR 方法的结构性缺陷:它们只优化单次采样准确率(Pass@1),却对多次采样覆盖率(Pass@K)漠视,导致"多样性塌缩"——正确答案的概率质量集中在少数子集上。论文将"均匀正确策略"(Uniform-Correct Policy)确立为最优解结构,提出 UCPO 方法,通过在奖励目标中加入条件均匀性惩罚,将梯度信号重定向至被低估的正确回答,在 AIME24 等数学推理基准上实现 Pass@64 高达 +10% 的绝对提升,同时维持 Pass@1 性能。
与本章关系:对应 10.5 节 GRPO 章节,直接揭示了当前主流 RLVR/GRPO 算法的多样性盲点,并提供了可直接集成的改进方案,是对 GRPO 的重要补充。
基于编排轨迹的多 Agent RL:超越单智能体动作优化
发表:2026 年 5 月 4 日 | arXiv:2605.02801
核心贡献:传统 RL 只优化单 Agent 的原子动作,本文将优化范围扩展到多 Agent 系统的"编排层"——包括任务分派、委托、通信聚合和终止判断。通过构造编排轨迹数据集并用 PPO/GRPO 类方法训练,系统学会在层次任务中自适应决定何时拆分子任务、委派给哪个子 Agent,整体任务成功率大幅提升。
与本章关系:对应本章 RL 训练范式扩展方向,是将 GRPO/PPO 应用于多 Agent 编排优化的前沿探索,与第 10.5 节单 Agent RLVR 形成对比与互补。
Selective Rollout:多采样 Agent RL 的中途轨迹剪枝方法
发表:2026 年 5 月 7 日 | arXiv:2605.05802
核心贡献:GRPO 在 Agent 环境训练时,约 40% 的采样组出现零奖励方差,贡献零梯度却消耗大量计算资源。本文提出 Selective Rollout,通过监控并行轨迹的平均成对前缀编辑距离,当同组轨迹已收敛到相同动作前缀时提前终止整个采样组,避免无效计算。在 ALFWorld 基准(Qwen2.5-7B)上,训练速度提升 10.7%,同时保留任务集上成功率提升 +2.5 个百分点。
与本章关系:直接针对 10.5 节 GRPO 算法在 Agent 训练中成本过高的工程痛点,是多采样 RL 训练效率优化的最新实践,与 UCPO(解决多样性塌缩)形成互补。
统一 Pair-GRPO 框架:从隐式到显式的偏好约束稳定对齐
发表:2026 年 5 月 7 日 | arXiv:2605.06375
核心贡献:该论文建立了统一的 Pair-GRPO 理论框架,提出 Soft-Pair-GRPO 和 Hard-Pair-GRPO 两种变体,系统解决了主流 RLHF 中梯度方向模糊、训练不稳定和策略漂移三大问题。Hard-Pair-GRPO 通过引入显式局部概率约束与约束 KL 拟合优化,提供了单调策略改进和梯度方差减少的理论保证。在 HH-RLHF、UltraFeedback 和 MuJoCo 等基准上,对齐质量与训练稳定性均超过现有方法。
与本章关系:对应 10.5 节 GRPO 算法,提供了比标准 GRPO 更稳定的偏好对齐理论基础,是 GRPO 家族的最新理论扩展,与 UCPO(探索多样性)和 Selective Rollout(采样效率)互补。
列表策略优化 LPO:揭示 GRPO 几何结构的统一 RLVR 框架
发表:2026 年 5 月 7 日 | arXiv:2605.06139
核心贡献:清华大学与腾讯联合提出列表策略优化(LPO),首次揭示了现有基于组的策略梯度方法(GRPO 等)的统一几何结构——将其解释为响应概率单纯形上的目标投影问题。LPO 通过精确散度最小化实现投影,相比 GRPO 提供单调改进保证、自修正梯度和灵活的散度选择,在数学推理基准上优于 GRPO/REINFORCE++ 等基线,同时保持训练稳定性与响应多样性。
与本章关系:是对 10.5 节 GRPO 算法理论基础的深层诠释,将"为什么 GRPO 有效"归纳为更通用的单纯形投影问题,为后续 RLVR 方法设计提供了统一理论框架。
NSR:近边界随机救援——修复 GRPO 硬截断瓶颈提升 RLVR 训练稳定性
发表:2026 年 5 月 21 日 | arXiv:2605.22703
核心贡献:本文系统分析了 GRPO 式 RLVR 中"硬截断"引发的训练瓶颈:紧邻截断阈值外侧的梯度信号被完全丢弃,导致优化停滞。作者提出 NSR(Near-boundary Stochastic Rescue),在边界附近以随机方式保留少量越界 token 的梯度,效果等价于隐式梯度衰减,但比确定性衰减更稳健。在 7B 至 30B 规模的稠密与 MoE 架构上,NSR 相比 DAPO、GSPO 等强基线持续提升训练稳定性与最终性能,且无需修改采样流程即可即插即用。
与本章关系:直接针对 10.5 节 GRPO 的核心机制——截断比率 ε 的处理策略——给出了理论诊断与最小化改进方案,是理解 RLVR 优化不稳定根源的重要参考。
DelTA:判别式 Token 信用分配——让 RLVR 梯度更聚焦
发表:2026 年 5 月 20 日 | arXiv:2605.21467
核心贡献:RLVR 的序列级奖励被分配到所有 token 时,高频格式词主导梯度方向而淹没真正区分正负样本的关键 token。DelTA 通过判别式分析估计每个 token 的权重系数,放大正负侧各自的特有梯度、压制共有成分,从而让优化方向更具判别力。在 Qwen3-8B/14B 的七个数学基准上分别超越同规模最强基线 3.26 和 2.62 个百分点,并在代码生成与域外评测上均表现良好。
与本章关系:对应 10.5 节 GRPO 的奖励归因问题,从 token 粒度揭示了"序列级奖励→token 概率变化"的内在机制,为 RLVR 的细粒度优化提供了新视角。
GROW:面向开放世界 VLM Agent 的状态-动作 GRPO 框架
发表:2026 年 5 月 18 日(v2:5 月 21 日)| arXiv:2605.20246
核心贡献:现有 GRPO 需要将完整的多轮轨迹作为单一训练样本,在开放世界任务(如 Minecraft)中导致上下文极长、噪声严重。GROW 将轨迹分解为独立的"状态-动作"对,在样本间计算相对优势,从而绕开全轨迹依赖;理论上证明了这种分解在简化假设下可保留 GRPO 的策略优化信号。在 800 余个 Minecraft 任务上取得 SOTA 表现,是首个有效将 GRPO 用于开放世界多轮 VLM Agent RL 训练的工作。
与本章关系:对应 10.5 节 GRPO 算法的多轮轨迹应用场景,直接解决了"完整轨迹过长"的训练瓶颈,展示了 GRPO 向视觉-语言开放世界 Agent 扩展的最新路径。
SRPO:自重置策略优化——精准信用分配提升 LLM 推理
发表:2026 年 5 月 25 日 | arXiv:2605.25507
核心贡献:现有 GRPO/PPO 对整条推理轨迹做均匀信用分配,忽略了"哪一步出了错"。SRPO(Self-Reset Policy Optimization)引入"重置"机制:在错误轨迹中自定位关键错误步骤,从该状态出发重新采样反事实后续,通过比较多条续写的结果来精确归因。论文还提出 RRPO(随机重置)和 SRPO(模型自定位错误步+重置)两种变体,后者在五个推理基准上一致超越标准 GRPO 和 RRPO,仅利用模型自身无需外部监督。
与本章关系:对应 10.5 节信用分配难题,是对"结果奖励均匀分配至全部 token"缺陷的直接修复方案,与 DelTA 形成互补——DelTA 做 token 级加权,SRPO 做轨迹级重置采样。
ConSPO:从对比视角重新审视具有可验证奖励的强化学习
发表:2026 年 5 月 13 日 | arXiv:2605.12969
核心贡献:本文首先证明 GRPO 等价于一种加权正负分数差——即对已验证正样本提升序列分数、对负样本降低序列分数,并以裁剪后的 token 级重要性采样比率均值作为评分。在此基础上,论文揭示了 GRPO 的两大结构性缺陷:(1)似然不对齐评分——优化的是裁剪比率代理而非真实生成似然;(2)分数不敏感信用分配——同组内正负样本的相对差距未被利用。为此提出 ConSPO 框架,用长度归一化的序列对数概率替代裁剪比率分数,并采用群组级 InfoNCE 对比目标,配合课程调度边距逐步强化正负样本分离度;在多个骨干模型和数学推理基准上一致优于 GRPO 及其变体。
与本章关系:对应 10.5 节 GRPO 算法的核心机制,从对比学习视角重新定义了 RLVR 的优化目标,是对 GRPO 家族的原理性重构,与 LPO(几何统一)、DelTA(token 加权)、SRPO(轨迹重置)共同构成信用分配方向的完整研究图谱。
APPO:智能体过程式策略优化——细粒度决策点信用分配
发表:2026 年 6 月 10 日 | arXiv:2606.12384
核心贡献:现有 Agentic RL 的信用分配以工具调用边界或固定工作流为粒度,但关键决策点广泛分布于整个生成序列,而非集中在工具调用处。APPO 引入"分支评分"(结合 token 不确定性和策略续写似然增益)来精准定位高价值分支点,并用"过程级优势缩放"将信用从粗粒度交互单元细化到序列中的细粒度决策位置。在 13 个基准测试上相比强基线平均提升约 4 个百分点,同时保持高效工具调用。
与本章关系:对应 10.5 节信用分配难题,直接回答了"Agentic RL 中在哪里分支、如何分配信用"两个核心问题,是 GRPO/PPO 类方法在多轮工具调用场景下的最新改进,与 DelTA(token 加权)、SRPO(轨迹重置)形成方法论互补。
GraphPO:基于有向无环图的策略优化——从 Chain 到 Tree 到 Graph 的 RLVR 进化
发表:2026 年 6 月 17 日 | arXiv:2606.18954
核心贡献:RLVR 现有方法存在两个结构性瓶颈:独立采样响应导致大量重复推理步骤(冗余探索),稀疏的最终答案奖励难以识别有价值的中间步骤(信用稀疏)。GraphPO 将 rollout 建模为有向无环图(DAG):以推理步骤为边,以从推理路径中总结出的语义状态为节点。语义等价路径被合并为等价类,允许共享后缀并将计算预算从冗余扩展重新分配到多样化探索;"效率优势"分配给入边,"正确性优势"分配给出边,从最终结果中推导过程监督信号。理论分析证明 GraphPO 降低了优势估计方差,实验在三个 LLM 的推理和 Agentic 搜索基准上,以相同 token/响应预算一致优于 chain-based 和 tree-based 基线。
与本章关系:对应 10.5 节 GRPO 算法核心机制,是 RLVR rollout 结构从链式→树式→图式的最新演进,直接解决了 GRPO 家族的冗余探索与信用稀疏两大核心缺陷,与本章已收录的 ConSPO(对比视角)、APPO(决策点视角)共同构成 RLVR 优化机制的多维研究图谱。
G2PO:面向长时程 Agentic 强化学习的群组图策略优化
发表:2026 年 6 月 22 日 | arXiv:2606.22995
核心贡献:长时程 Agentic RL 面临奖励稀疏与延迟问题——反馈往往在数十步交互后才到来,而现有步骤级框架仍将 Agent 探索视为相互孤立的线性轨迹,忽略了状态转移的内在图结构,导致状态价值估计高方差和信用分配局部化。G2PO 将线性轨迹显式转化为全局状态转移图:跨轨迹聚合相同观测(群组聚合状态价值估计降低采样方差),将 Agent 动作重新定义为状态节点间的转移边,并提出边中心优势估计——在全局图上归一化 TD 误差,精准识别驱动任务绝对进展的关键状态转移。在 WebShop、ALFWorld、AppWorld 三个长时程基准上,G2PO 相比 GRPO 成功率最高提升 22.2%。
与本章关系:对应 10.5 节 GRPO 算法与信用分配问题,G2PO 将 group-based RL 的探索结构从线性轨迹升级为全局图,是 Agentic RL 在长时程稀疏奖励场景下的最新突破,与已收录的 SRPO(轨迹重置)、APPO(过程级分支)共同构成信用分配三视角。