?
点击"开始演示",观看 GRPO 如何通过组内采样和比较来优化策略
❓ 输入问题 x
数学题:计算 ∫₀¹ x²·eˣ dx 的精确值
正确答案:e - 2 ≈ 0.7183
🎲 采样 G=8 个回答 {y₁, y₂, ..., y₈} ~ π_θ(·|x)
📐 组内标准化:Â_i = (r_i - μ) / σ
μ = (1/G) Σ r_i = ?
σ = √(Var(r)) = ?
 > 0 → 强化 ↑
 < 0 → 抑制 ↓
组内均值作为基准线,替代 PPO 的 Critic 模型 — 零参数、零训练误差
📊 策略概率更新 π_θ(y|x)
⚖️ GRPO vs PPO 对比
| 维度 | PPO | GRPO | 改善 |
|---|---|---|---|
| 模型数量 | Policy + Critic + Ref | Policy + Ref | 少 1 个 Critic |
| 显存需求 | ≈ 3× 模型大小 | ≈ 1.5× 模型大小 | 节省约 50% |
| 基准线来源 | Critic 网络(有估计误差) | 组内均值(非参数统计量) | 更稳定 |
| 超参数 | GAE λ, Critic LR, ... | clip ε, KL β, G | 更少更易调 |
| 代价 | 每问题 1 个回答 | 每问题 G 个回答 | 采样成本 ↑ |