🎯 GRPO:组内相对策略优化

DeepSeek 的高效 RL 算法 — 用"同组比较"替代 Critic 模型

?
点击"开始演示",观看 GRPO 如何通过组内采样和比较来优化策略
❓ 输入问题 x
数学题:计算 ∫₀¹ x²·eˣ dx 的精确值
正确答案:e - 2 ≈ 0.7183
🎲 采样 G=8 个回答 {y₁, y₂, ..., y₈} ~ π_θ(·|x)
📐 组内标准化:Â_i = (r_i - μ) / σ
μ = (1/G) Σ r_i = ?
σ = √(Var(r)) = ?
 > 0 → 强化 ↑    < 0 → 抑制 ↓
组内均值作为基准线,替代 PPO 的 Critic 模型 — 零参数、零训练误差
📊 策略概率更新 π_θ(y|x)
⚖️ GRPO vs PPO 对比
维度PPOGRPO改善
模型数量Policy + Critic + RefPolicy + Ref少 1 个 Critic
显存需求≈ 3× 模型大小≈ 1.5× 模型大小节省约 50%
基准线来源Critic 网络(有估计误差)组内均值(非参数统计量)更稳定
超参数GAE λ, Critic LR, ...clip ε, KL β, G更少更易调
代价每问题 1 个回答每问题 G 个回答采样成本 ↑