11.7 最新研究进展(2025—2026)
📖 "从 DeepSeek-R1 登上 Nature 封面到 DAPO/VAPO 刷新推理基准,Agentic-RL 正以惊人的速度从实验室走向工程实践。本节将带你纵览这一领域最前沿的研究成果。"
⏰ 时效性说明:本节内容更新至 2026 年 4 月 21 日。由于该领域发展极为迅速,建议读者结合 Awesome-RL-Reasoning-Recipes 等开源项目获取最新动态。
概览:从 RLHF 到推理 RL 的范式转变
过去两年(2025—2026)是大模型强化学习领域爆发式发展的两年。以 DeepSeek-R1 登上 Nature 封面为标志,RL 训练 LLM 从"对齐人类偏好"(RLHF)的辅助角色,跃升为激发模型推理能力的核心技术。我们可以用一张时间线来概览关键里程碑:
2024.09 OpenAI o1 发布,首次展示"推理时间计算扩展"(test-time compute scaling)的潜力
2025.01 DeepSeek-R1 发布,纯 RL 训练激发自主推理能力,使用 GRPO 算法
2025.01 Kimi k1.5 发布,128K 长上下文 RL 训练,Long2Short 蒸馏技术
2025.02 QwQ-32B 发布,展示中等规模模型的推理 RL 训练效果
2025.03 DAPO 开源发布,提出可复现的大规模 RL 训练方案
2025.04 VAPO 发布,基于价值增强的 PPO 框架,AIME 2024 达到 60.4 分
2025.06 OpenAI o3 发布,推理能力进一步跃升
2025.07 GSPO 提出(Qwen 团队),序列级策略优化稳定 MoE 训练,训练 Qwen3
2025.08 Self-Aligned Reward (SAR) 提出,利用困惑度信号解决过度思考
2025.10 PURE 框架发布,最小形式信用分配解决奖励破解问题
2025.12 Co-rewarding (ICLR 2026) 提出自监督 RL 学习方案
2026.01 RLVR 新范式:基于问题拆解的高效强化学习方法
2026.02 DRQA 动态推理配额分配,token 成本降低 31%
2026.03 CoRLHF 提出协同策略-奖励联合优化
这些工作可以归纳为以下几个核心研究方向:
| 方向 | 代表工作 | 核心问题 |
|---|---|---|
| 推理模型训练 | DeepSeek-R1, Kimi k1.5, QwQ | 如何通过 RL 激发 LLM 的推理能力? |
| RL 算法改进 | DAPO, VAPO, GSPO, GRPO 变体 | 如何让大模型 RL 训练更稳定、更高效? |
| 奖励设计与反馈 | SAR, Co-rewarding, CoRLHF | 如何设计更好的奖励信号? |
| 过度思考与效率 | PURE, DRQA, DEER | 如何让模型"恰到好处"地推理? |
| Agentic 任务 RL | AgentPRM, R³L, DeepSWE | 如何将 RL 扩展到工具调用等 Agent 任务? |
下面我们逐一深入介绍每个方向的重要论文。
推理模型:纯 RL 训练激发自主推理
7.2.1 DeepSeek-R1:Nature 封面的突破
论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (Nature, 2025) [1]
DeepSeek-R1 是该领域最具里程碑意义的工作。它的核心发现是:
仅通过 RL 训练(不需要人工标注的推理链),模型可以自主涌现出多步推理、自我反思和动态策略调整等高级认知能力。
核心技术要点
-
GRPO 算法:使用组内相对策略优化(详见 10.5 节),通过组内回答竞争优化策略,避免昂贵的 Critic 网络,总训练成本约 29.4 万美元。
-
多阶段训练框架:
- R1-Zero 阶段:仅使用结果正确性作为奖励(可验证奖励 RLVR),不使用任何 SFT 数据。模型自发涌现出 "Aha moment"——在推理过程中学会自我反思和纠错。
- R1 阶段:在 R1-Zero 基础上,融入少量高质量 SFT 数据和人类偏好对齐,提升综合能力。
-
可验证奖励(RLVR):奖励信号来源于可自动验证的任务(如数学题的最终答案),无需人工标注。
关键实验结果
- 在 MMLU、AIME 2024、LiveCodeBench 等 21 个基准上达到 SOTA
- R1-Zero 展示了"从零开始学推理"的可能性——RL 训练过程中推理链长度自发增长
- 蒸馏到 7B/14B 小模型后仍保持强推理能力
为什么重要?
DeepSeek-R1 证明了两个关键论点:
- RL 可以激发预训练中潜在的推理能力——这些能力在 SFT 或 prompt engineering 中难以充分释放
- 推理能力可以在纯 RL 环境中"涌现"——无需依赖人工标注的推理链作为示范
7.2.2 Kimi k1.5:长上下文 RL 的突破
论文:Kimi k1.5: Scaling Reinforcement Learning with LLMs (2025) [2]
Kimi k1.5 由 Moonshot AI 团队开发,在几个方面做出了独特贡献:
核心创新
-
128K 长上下文 RL 训练:将 RL 训练的上下文窗口从传统的 4K-8K 扩展到 128K tokens,通过部分轨迹重用(Partial Rollout Reuse)提升训练效率。
-
简化 RL 框架:摒弃蒙特卡洛树搜索(MCTS)和价值函数,仅通过改进的在线镜像下降(Online Mirror Descent)直接优化模型,大幅降低计算负担。
-
Long2Short 蒸馏技术:将长上下文推理能力"压缩"到短上下文模型中。具体做法是:
- 先在长上下文设置下训练出强推理能力
- 然后通过知识蒸馏,让短上下文模型学会"精炼"推理
关键结果
- 在 LiveCodeBench 等短任务上超越 GPT-4.1 达 550%
- Long2Short 技术证明了长链推理能力可以被压缩而不显著损失
- 首次展示 128K 上下文窗口的 RL 训练的可行性
7.2.3 QwQ-32B:中等规模的推理 RL
论文:QwQ: Reflect and Question to Understand the World (Alibaba, 2025) [3]
QwQ-32B 是阿里巴巴通义团队发布的中等规模推理模型,其意义在于证明了 32B 参数量级的模型也能通过 RL 训练获得强大的推理能力。
技术特点
- 基于 Qwen2.5-32B 进行 RL 训练
- 在数学推理任务上接近 DeepSeek-R1 的表现
- 训练成本远低于 670B 级别模型
为什么重要?
QwQ 证明了推理 RL 不是"大模型专属"——中等规模模型通过合适的 RL 训练同样能获得显著的推理能力提升,这对资源有限的团队和边缘部署场景具有重大实践价值。
7.2.4 OpenAI o1/o3:推理时间计算扩展
模型:OpenAI o1 (2024.09) / OpenAI o3 (2025.06) [4]
虽然 OpenAI 未公布完整的技术报告,但 o1 和 o3 系列模型在业界产生了深远影响:
核心理念:Test-Time Compute Scaling
传统的 Scaling Law 关注训练时计算扩展(更大模型 + 更多数据)。o1/o3 系列提出了另一个维度:
在推理时投入更多计算(更长的思考链、更多的搜索/验证),也能持续提升模型能力。
这意味着存在两条互补的扩展路径:
- 训练时扩展:增大模型、增加数据
- 推理时扩展:增加推理步骤、验证回路
对领域的影响
- 催生了"推理模型"这一新品类
- 推动了 GRPO、DAPO、VAPO 等面向推理任务的 RL 算法研发
- 引发了对"推理效率"的关注——过度思考(Overthinking)问题浮出水面
RL 算法改进:让大模型 RL 训练更稳定高效
7.3.1 DAPO:大规模可复现的 RL 训练
论文:DAPO: An Open-Source LLM Reinforcement Learning System at Scale (2025) [5]
DAPO(Decoupled Clip and Dynamic Sampling PPO)由字节跳动 Seed 团队提出,核心目标是解决大规模 RL 训练的可复现性问题。
核心技术
-
解耦裁剪(Decoupled Clipping):传统 PPO 使用对称裁剪 ,DAPO 将上下裁剪边界分离:
- (较大):鼓励对好回答的探索
- (较小):严格抑制坏回答
这种不对称设计让模型在"保守抑制坏行为"的同时"大胆探索好行为"。
-
动态采样(Dynamic Sampling):根据训练进度动态调整每个问题的采样数量:
- 训练初期:多采样,增加探索
- 训练后期:少采样,精细优化
-
Token 级策略约束:在 token 级别而非序列级别施加 KL 约束,更精细地控制策略偏移。
开源贡献
DAPO 完整开源了训练代码和数据集(基于 Qwen2.5-32B),是目前最具可复现性的大规模 RL 训练方案之一。
7.3.2 VAPO:基于价值增强的 PPO
论文:VAPO: Efficient and Reliable RL Framework for Advanced Reasoning Tasks (ByteDance Seed, 2025) [6]
VAPO(Value-based Augmented PPO)是 DAPO 的后续工作,专门针对长链推理任务中的难题。
核心问题
长链推理(如数学证明、复杂编程)中,RL 训练面临三大挑战:
- 价值模型偏差:Critic 网络对长序列的价值估计不准
- 异构序列长度:同一批次中回答长度差异极大
- 稀疏奖励:只有最终答案才有奖励信号
核心技术
-
价值预训练(Value Pretraining):使用蒙特卡洛回报预训练 Critic 网络,减小初始化偏差。
-
解耦 GAE(Decoupled GAE):
- 对价值网络使用 (低偏差、高方差)
- 对策略网络使用 (平衡偏差与方差)
-
长度自适应 GAE(Length-Adaptive GAE):根据序列长度动态调整 :
其中 为序列长度。长序列使用更大的 (减少偏差),短序列使用更小的 (减少方差)。
- Clip-Higher 探索:使用不对称裁剪 , ,鼓励多样性采样。
关键结果
| 模型 | AIME 2024 | 训练步数 | 稳定性 |
|---|---|---|---|
| DeepSeek-R1-Zero (671B) | ~50 | 大量 | 偶有崩溃 |
| DAPO (32B) | ~50 | 中等 | 较稳定 |
| VAPO (32B) | 60.4 | ~5,000 | 无崩溃 |
VAPO 仅用 Qwen-32B 和 5,000 步训练就超越了 671B 的 DeepSeek-R1-Zero,且训练过程完全无崩溃。
7.3.3 GRPO 变体与改进
自 DeepSeek-R1 提出 GRPO 以来,多篇论文对其进行了改进:
| 改进方向 | 代表工作 | 解决的问题 |
|---|---|---|
| 序列级优化 | GSPO [15] | Token 级重要性权重引入高方差噪声,导致 MoE 模型训练坍塌。GSPO 将重要性采样提升到序列级,训练 Qwen3 |
| 移除均值归一化 | Dr. GRPO | 原始 GRPO 的组内均值归一化会引入偏差 |
| 自适应组大小 | Adaptive GRPO | 固定组大小不适合所有问题难度 |
| Token 级优势 | Token-level GRPO | 序列级优势对长序列不够精细 |
| 在线/离线混合 | Hybrid GRPO | 纯在线采样效率低 |
其中 GSPO 是最具实践影响力的改进——它已被阿里巴巴 Qwen 团队用于训练 Qwen3 系列模型。关于 GSPO 的详细原理和实现,请参阅 10.5 节的 GSPO 章节。
奖励设计:如何告诉模型什么是好的推理?
奖励函数是 RL 训练的"灵魂"。2025—2026 年,奖励设计出现了三个重要方向。
7.4.1 Self-Aligned Reward (SAR):利用模型内部信号
论文:Self-Aligned Reward: Towards Effective and Efficient Reasoners (UIUC & Amazon AWS, 2025) [7]
核心思想
SAR 的核心洞察是:模型内部的困惑度(Perplexity)差异可以作为高质量的奖励信号。
具体来说,SAR 计算两种条件下的困惑度差异:
其中:
- :给定问题 时生成回答 的困惑度
- :将回答 视为独立文本时的困惑度
直觉解释:
- 高 SAR:回答高度依赖于问题(是针对性的、简洁的回答)
- 低 SAR:回答与问题关联弱(可能是冗长、泛泛的内容)
为什么有效?
- 无需外部奖励模型:利用模型自身的语言建模能力
- 细粒度评分:可以区分"正确且简洁"vs"正确但冗长"
- 跨任务泛化:在数学数据上训练,在逻辑推理等非数学任务上同样有效
实验效果
在 4 个基础模型和 7 个数据集上:
- 准确率平均提升 4%
- 输出长度减少 30%
7.4.2 Co-rewarding:自监督 RL 学习
论文:Co-rewarding: Self-Supervised RL for LLM Reasoning (ICLR 2026) [8]
核心问题
Self-rewarding RL(让模型自己给自己打分)容易出现训练坍塌——模型学会生成"容易给自己高分"而非"真正好"的回答。
解决方案
Co-rewarding 引入互补监督信号:
- 对同一问题生成改写版本
- 使用改写问题的回答作为原问题回答的辅助评估
- 两个方向的评估互相约束,防止坍塌
关键结果
- 在推理任务上性能提升 12.9%(无需真实标签)
- 训练过程显著更稳定
7.4.3 CoRLHF:协同策略-奖励联合优化
论文:CoRLHF: Reinforcement Learning from Human Feedback with Cooperative Policy-Reward Optimization (Expert Systems with Applications, 2026) [9]
核心创新
传统 RLHF 分两步:先训练奖励模型,再用奖励模型训练策略。这导致了分布不匹配问题——奖励模型训练时看到的数据分布与策略优化时生成的数据分布不一致。
CoRLHF 将策略优化和奖励模型优化合并为一个迭代过程:
- 策略生成新数据
- 奖励模型在新数据上更新
- 策略在更新后的奖励上优化
- 循环迭代
这种方法桥接了 RLHF 和 RLAIF,在减少人工反馈依赖的同时保持了对齐质量。
7.4.4 内生奖励:LLM 是自带的奖励模型
论文:周志华团队相关工作 (南京大学, 2025) [10]
颠覆性发现
这项研究发现:LLM 的 next-token prediction 能力本身就蕴含了通用奖励函数(内生奖励,Endogenous Reward)。
也就是说,预训练过程中学到的语言模型分布已经隐式编码了"什么是好的输出"的判断能力,无需额外训练奖励模型。
实践意义
- 减少了 RLHF pipeline 中的一个组件(奖励模型)
- 降低了误差累积的风险
- 在多个对齐基准上超越传统奖励模型
过度思考与推理效率
随着推理模型的普及,一个新问题浮出水面:过度思考(Overthinking)——模型在简单问题上也生成冗长的推理链,浪费计算资源且可能降低准确率。
7.5.1 问题分析:为什么推理模型会"想太多"?
过度思考的根源在于 RLVR(基于可验证奖励的 RL)的奖励结构:
只要最终答案正确,不管推理过程多长、多冗余,模型都会获得同样的奖励。
这导致了两个问题:
- 奖励膨胀:标准 RL 的求和形式信用分配使模型偏好生成更多步骤
- 无差别激励:无法区分"简洁正确"和"冗长正确"
7.5.2 PURE:最小形式信用分配
论文:Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning (2025) [11]
核心洞察
传统 RL 将轨迹价值定义为未来奖励的总和:
PURE 提出用最小值替代总和:
直觉:推理链的强度取决于最薄弱的一环。
| 方式 | 训练信号 | 后果 |
|---|---|---|
| 求和形式 | "多生成'还行'的步骤来堆分" | 冗长、循环论证 |
| 最小形式 | "每一步都必须正确,一步错满盘输" | 简洁、精确 |
实现方法
PURE 通过温度参数 将过程奖励转换为新奖励,使标准 RL 算法(PPO/GRPO)的求和公式在数学上等效于取最小值——无需修改底层算法,只需奖励预处理。
实验结果
- 求和形式训练几乎立即崩溃
- 最小形式训练稳定提升
- 样本效率提升 2-3 倍
7.5.3 DRQA:动态推理配额分配
论文:DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models (2026) [12]
核心观察
一个有趣的发现:当模型批量处理多个问题时(而非逐个处理),总输出长度显著缩短——模型似乎能隐式区分问题难度并"压缩"简单问题的推理。
方法
-
构建偏好数据:
- 单独生成的推理链(冗长版)
- 批量生成的推理链(精炼版)
- 按正确性和简洁性标注偏好
-
使用 GRPO 训练模型同时优化逻辑正确性和推理简洁性
效果
- 推理 token 成本降低 31%
- 准确率反而提升
- 在简单问题上缩短最多,复杂问题保持充分推理
7.5.4 DEER:动态早停推理
论文:Dynamic Early Exit in Reasoning Models (DEER) (2026) [13]
DEER 是一种免训练的推理时优化方法:
- 在推理过程中实时监控模型置信度
- 当模型对当前答案高度自信时触发早停
- 简单问题快速结束,复杂问题继续思考
效果
- 推理链长度缩短 19.1%—80.1%
- 准确率提升 0.3%—5.0%
- 无需额外训练,即插即用
7.5.5 方案对比
| 方法 | 核心思想 | 是否需要训练 | 效率提升 | 准确率影响 |
|---|---|---|---|---|
| SAR | 困惑度差异作为奖励 | 是(RL训练) | 长度-30% | +4% |
| PURE | 最小形式信用分配 | 是(奖励预处理) | 2-3x 样本效率 | 显著提升 |
| DRQA | 模拟批量推理的配额分配 | 是(GRPO训练) | token-31% | 提升 |
| DEER | 置信度触发早停 | 否(推理时) | 长度-19%~80% | +0.3%~5% |
| 简洁 RL | 二阶段精炼训练 | 是(二阶段RL) | 长度显著缩短 | 不降反升 |
RLVR:基于可验证奖励的强化学习
RLVR(Reinforcement Learning with Verifiable Rewards) 是 2025—2026 年最热门的研究方向之一,也是 DeepSeek-R1 成功的关键。
7.6.1 什么是 RLVR?
与传统 RLHF 依赖人工标注的偏好数据不同,RLVR 使用可自动验证的信号作为奖励:
| 对比维度 | RLHF | RLVR |
|---|---|---|
| 奖励来源 | 人工标注偏好 | 自动验证(如答案对错) |
| 标注成本 | 高 | 极低 |
| 适用任务 | 开放式(对话、写作) | 有明确正确答案(数学、代码) |
| 扩展性 | 受标注速度限制 | 几乎无限扩展 |
7.6.2 RLVR 的问题与改进
问题拆解框架(人大 & 字节, 2026)[14]:
传统 RLVR 仅在最终答案处给出奖励(稀疏奖励),导致长链推理中的信用分配困难。该工作提出 Decomposer-Reasoner 框架:
- Decomposer:将复杂问题拆解为子问题
- Reasoner:逐步解决子问题
- 密集奖励:每个子问题的解决都有可验证的奖励
这种方法将稀疏奖励转化为密集奖励,显著提升了 RL 训练的探索效率。
Agentic 任务的 RL 训练
前面讨论的大多是推理任务(数学、代码)的 RL 训练。一个更前沿的方向是将 RL 应用到真正的 Agentic 任务——需要工具调用、环境交互、多步决策的场景。
7.7.1 AgentPRM:过程奖励模型用于 Agent 评估
在多轮 Agent 任务(如网页导航、API 调用)中,仅评估最终结果不够——需要评估每一步决策的质量。AgentPRM 引入了过程奖励模型(Process Reward Model) 来评估 Agent 的中间决策。
7.7.2 R³L:反思-重试 RL
R³L(Reflect-then-Retry RL) 针对 Agent 任务中的失败恢复:
- 当 Agent 执行失败时,生成语言反馈诊断错误原因
- 从失败点重新开始,利用反馈避免重蹈覆辙
- 大幅减少了 rollout 成本
7.7.3 DeepSWE:软件工程 Agent 的 RL 训练
DeepSeek 团队的 DeepSWE 展示了 RL 训练的软件工程 Agent 可以匹配闭源模型的 SWE-bench 表现,证明了 RL 在复杂 Agentic 任务中的潜力。
开放挑战与未来方向
尽管进展迅速,该领域仍面临诸多开放挑战:
7.8.1 奖励破解(Reward Hacking)
模型可能找到奖励函数中的漏洞来"作弊",而非真正提升能力。例如:
- 生成"看起来像推理"但实际是胡说八道的长文本
- 利用格式技巧(如特定关键词)获得高奖励
- 在自我评估中学会"自欺欺人"
7.8.2 训练稳定性
大模型 RL 训练仍然不够稳定:
- KL 散度管理:策略偏移过大会导致灾难性遗忘
- 奖励规模:不同奖励维度的尺度不一致
- 数据多样性:训练数据的多样性直接影响探索质量
7.8.3 泛化能力
当前 RL 训练的推理能力主要在数学和代码领域验证,向以下领域的泛化仍需探索:
- 开放域推理(科学推理、常识推理)
- 多模态推理(视觉-语言、视频理解)
- 跨语言推理
7.8.4 效率与成本
RL 训练的计算成本仍然很高:
- 大量的 rollout 采样
- 多个模型(Policy、Reference、可能的 Critic)同时在显存中
- 长序列推理的显存和时间开销
7.8.5 未来展望
基于当前的研究趋势,我们预期以下方向将成为热点:
| 方向 | 预期进展 |
|---|---|
| 内部信号挖掘 | 更多利用模型自身信号(如 SAR、内生奖励)替代外部奖励模型 |
| 自我进化训练 | 模型自主生成训练数据和奖励信号的闭环系统 |
| 多模态 RL | 将推理 RL 扩展到视觉、语音等多模态场景 |
| Agentic RL 扩展 | 将 RL 从推理任务扩展到工具调用、环境交互等 Agent 场景 |
| 高效训练 | 减少 rollout 成本、提升样本效率的新算法 |
| 理论基础 | 更深入理解 RL 如何激发 LLM 推理能力的理论分析 |
论文列表
以下是本节涉及的主要论文,按主题分类:
推理模型
| # | 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|---|
| [1] | DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL | DeepSeek AI | 2025 | 纯 RL 训练激发自主推理,GRPO 算法 |
| [2] | Kimi k1.5: Scaling Reinforcement Learning with LLMs | Moonshot AI | 2025 | 128K 长上下文 RL,Long2Short 蒸馏 |
| [3] | QwQ: Reflect and Question to Understand the World | Alibaba | 2025 | 中等规模推理 RL |
| [4] | OpenAI o1/o3 System Card | OpenAI | 2024/2025 | 推理时间计算扩展 |
RL 算法
| # | 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|---|
| [5] | DAPO: An Open-Source LLM RL System at Scale | ByteDance Seed | 2025 | 解耦裁剪 + 动态采样,开源可复现 |
| [6] | VAPO: Efficient and Reliable RL for Advanced Reasoning | ByteDance Seed | 2025 | 价值预训练 + 长度自适应 GAE,AIME 60.4 |
| [15] | GSPO: Group Sequence Policy Optimization | Alibaba (Qwen Team) | 2025 | 序列级重要性采样,稳定 MoE 训练,训练 Qwen3 |
奖励设计
| # | 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|---|
| [7] | Self-Aligned Reward (SAR) | UIUC & AWS | 2025 | 困惑度差异作为内在奖励 |
| [8] | Co-rewarding | ICLR 2026 | 2025 | 自监督 RL,互补评估信号 |
| [9] | CoRLHF | Expert Systems with Applications | 2026 | 策略-奖励联合迭代优化 |
| [10] | 内生奖励 | 南京大学(周志华团队) | 2025 | LLM 内含通用奖励函数 |
推理效率
| # | 论文 | 作者/机构 | 年份 | 核心贡献 |
|---|---|---|---|---|
| [11] | PURE: Min-Form Credit Assignment | — | 2025 | 最小形式替代求和形式信用分配 |
| [12] | DRQA: Dynamic Reasoning Quota Allocation | — | 2026 | 动态推理配额分配,token 降 31% |
| [13] | DEER: Dynamic Early Exit in Reasoning Models | — | 2026 | 免训练动态早停 |
| [14] | RLVR with Adaptive Problem Decomposition | 人大 & 字节 | 2026 | 问题拆解密集奖励 |
推荐阅读路线
如果你是该领域的新入门者,建议按以下顺序阅读:
入门路线:
1. DeepSeek-R1 论文(理解 RLVR + GRPO 的核心思想)
↓
2. GSPO 论文(理解序列级优化相对于 Token 级的优势)
↓
3. DAPO 论文 + 代码(动手复现大模型 RL 训练)
↓
4. VAPO 论文(理解价值函数在长链推理中的作用)
↓
5. SAR / PURE 论文(理解奖励设计与过度思考问题)
↓
6. Kimi k1.5 / QwQ(了解不同团队的技术路线)
如果你对特定主题感兴趣:
- 想做推理模型训练 → 重点读 DeepSeek-R1 + GSPO + DAPO + VAPO
- 想设计奖励函数 → 重点读 SAR + PURE + Co-rewarding
- 想优化推理效率 → 重点读 DRQA + DEER + PURE
- 想做 Agent RL → 重点读 DeepSWE + AgentPRM + R³L
- 想训练 MoE 模型 → 重点读 GSPO + DAPO
2026 年 4 月:Agent 能力的关键跃迁
⏰ 时效性补充:本节内容更新至 2026 年 4 月 21 日,新增 2026 年 4 月最新进展。
Agent 基准测试飙升:从"玩具"到"生产力"
斯坦福 HAI 发布《2026 年人工智能指数报告》,数据显示 Agent 能力正在以惊人速度接近人类水平:
| 基准测试 | 2024 年水平 | 2026 年 4 月水平 | 变化 |
|---|---|---|---|
| SWE-bench Verified(代码 Bug 修复) | ~20% | ~83.7%(DeepSeek V4) | +63pp |
| Terminal-Bench 2.0(终端 Agent) | ~20% | 77.3% | +57pp |
| OSWorld(电脑使用) | <20% | 66.3% | +46pp |
| 网络安全 Agent | ~15% | 93% | +78pp |
| SWE-bench Pro(更难版本) | — | 58.4%(GLM-5.1) | 新基准 |
"锯齿前沿"现象(斯坦福报告命名):AI 能在 IMO 数学竞赛中拿金牌,但读模拟时钟的正确率只有 50.1%——强项极强,弱项极弱。这意味着在部署 Agent 时,不能依赖模型自动识别边界,需要显式约束任务范围。
TurboQuant:6 倍 KV Cache 压缩
Google Research 发布 TurboQuant 算法,将 KV Cache 内存需求降低 6 倍以上,且无精度损失。这对 Agentic-RL 训练和 Agent 部署都有直接影响:
影响一:长轨迹 RL 训练成本大幅下降
原来:训练 8K token 轨迹需要 ~40GB 显存(KV Cache)
现在:TurboQuant 后 ~7GB → 单卡 RTX 4090 可训练长 Agent 轨迹
影响二:推理时服务更多并发 Agent
原来:H100 80GB 最多同时服务 ~32 个 128K 上下文会话
现在:TurboQuant 后 → 同等显存可服务 ~192 个会话(6x)
影响三:超长 Agent 任务经济可行
GLM-5.1 支持 6000+ 次工具调用(需要极大 KV Cache)
TurboQuant 让此类任务成本下降到可商业化的水平
Claude Computer Use:桌面控制从实验到生产
2026 年 4 月,Anthropic 将 Computer Use 扩展至 Windows 平台(3 月仅支持 macOS),标志着 Agent 操控桌面应用进入生产就绪阶段:
能力清单(2026.04 版):
✅ 打开任意应用程序
✅ Chrome 浏览器导航 + 表单填写
✅ 运行开发工具(Terminal / VS Code / Jupyter)
✅ 电子表格操作(Excel / Google Sheets)
✅ 多步骤跨应用任务(如"从邮件中提取数据,填入表格,发送汇总报告")
✅ 与 Dispatch 集成,支持手机→桌面任务移交
当前限制:
⚠️ 无法处理需要特殊硬件权限的操作(如驱动安装)
⚠️ 长时间任务仍有失误风险(需要人工审批节点)
对 Agentic-RL 训练的启示:Computer Use 产生的轨迹数据(截图→动作序列)是全新的 Agent SFT/RL 数据类型,与文本轨迹有本质区别:
- 奖励信号:任务完成(截图匹配目标状态)而非文本正确性
- 数据格式:
(截图, 鼠标/键盘动作)而非(文本, 工具调用) - 难点:探索空间远大于纯文本 Agent
开发者生存指南(2026 年 4 月版)
斯坦福报告揭示:22-25 岁软件开发者就业自 2024 年起下滑 20%,入门级岗位被精准替代。对于 Agent 开发者:
| 优先级 | 方向 | 核心动作 |
|---|---|---|
| 🥇 最高 | Agent 工程化 | LangGraph + MCP + Tool Use,构建可靠 Agent 系统 |
| 🥈 高 | 长期任务 Agent | 掌握 Checkpoint、HITL、6000+ 循环的工程方案 |
| 🥉 中 | Agentic-RL 微调 | 用本章介绍的 GRPO/GSPO 为私有任务训练专用 Agent |
| ⭐ 长期 | AI 判断力 | 知道 Agent 能做什么、不能做什么,比会用 AI 更重要 |
本节小结
2025—2026 年,Agentic-RL 领域经历了从"对齐辅助工具"到"核心能力激发引擎"的根本转变。几个关键趋势值得关注:
- RL 从辅助到核心:RL 不再仅用于"对齐",而是用于激发预训练中潜在的推理能力
- 算法从复杂到实用:从 PPO 的四模型架构到 GRPO 的两模型架构,再到 GSPO 的序列级优化和 VAPO 的价值增强方案,训练越来越高效稳定
- 奖励从外部到内部:从人工标注到可验证奖励再到模型内部信号,奖励设计越来越自洽
- 关注从"更强"到"更高效":过度思考问题催生了一系列推理效率优化方案
这些进展正在让 "让模型通过实践自主学习" 这一愿景逐步成为现实。
📰 最新论文速递
🗓️ 本节由每日自动更新任务维护,最近更新:2026 年 4 月 25 日
T-STAR:推理走链、学习构树——多轮 Agent 策略优化新框架
发表:2026 年 4 月 8 日(v2:4 月 15 日)| arXiv:2604.07165
核心贡献:针对多步 Agent 任务中奖励稀疏、步骤信用分配不均的问题,提出 T-STAR 框架。其核心思想是推理时走链式轨迹、学习时构建认知树(Cognitive Tree),通过树状结构揭示轨迹间的隐式关联,将轨迹级奖励反向传播到关键步骤,再用"上下文思维嫁接"在关键分叉点合成纠正性推理,从而实现精准的策略更新。在具身、交互、推理、规划四类任务基准上,相比 GRPO 等基线取得一致性提升。
与本章关系:直接改进 11.5 节 GRPO 算法中"所有步骤平均分配信用"的缺陷,是多轮 Agent RL 训练中步骤级信用分配的前沿方案。
Agent-World:真实世界环境的可扩展合成与自进化 Agent 训练
发表:2026 年 4 月 20 日 | arXiv:2604.18292
核心贡献:提出 Agent-World 自进化训练竞技场,从数千个真实世界环境主题出发,基于 MCP 协议自动发现并合成具有可控难度的可验证任务,再通过多环境强化学习 + 自进化竞技场机制让 Agent 策略与环境协同进化。Agent-World-8B/14B 在 23 个 Agent 基准上超越强专有模型。
与本章关系:是 11.9 节「Agentic 数据飞轮」的论文级实现案例——用真实世界任务的自动合成替代人工数据标注,同时实现数据飞轮的自进化闭环。
GRPO-VPS:用可验证过程监督增强组相对策略优化
发表:2026 年 4 月 22 日 | arXiv:2604.20659
核心贡献:针对 GRPO 算法对推理轨迹中所有步骤进行无差别信用分配、导致难以识别有效推理步骤和产生过度思考的问题,提出 GRPO-VPS。核心方法是通过追踪模型在推理轨迹各步骤边界处对正确答案的条件概率(即模型「信念」的变化),将这种可解释的进度度量作为分步过程监督信号,从而将轨迹级奖励精细化到步骤级——全程无需额外辅助模型或 Monte Carlo 采样。在数学任务上精度最高提升 +2.6 点,推理链长度最多缩减 13.7%,跨多种模型规模均验证了泛化能力。
与本章关系:直接改进 11.5 节 GRPO 算法「无差别信用分配」的核心缺陷,与同节 T-STAR 的认知树方法形成互补——T-STAR 用树结构构建步骤关联,GRPO-VPS 用信念概率提供步骤级信号,共同代表 2026 年步骤级 RL 训练的两条主流技术路线。
重新审视 LVLM 中的强化微调:收敛性、奖励分解与泛化
发表:2026 年 4 月 21 日 | arXiv:2604.19857
核心贡献:首次为大视觉语言模型(LVLM)的强化微调建立严格理论框架。提出工具增强马尔可夫决策过程(TA-MDP),证明 GRPO 在复合可验证奖励(格式合规+答案准确+工具可执行)下以 速率收敛到一阶稳定点;建立「奖励分解定理」,量化逐组件优化与联合优化的次优性间隙,指导实践中的奖励设计;通过 PAC-Bayes 泛化界从理论上解释了工具增强策略在分布外任务上的强大迁移能力。
与本章关系:是 11.5 节 GRPO 算法的理论补充——从收敛性和泛化两个维度为 RLVR 范式建立了严格数学基础,帮助读者理解「为什么 GRPO 有效」以及「多奖励分量如何交互」。