🎯 GRPO：组内相对策略优化

DeepSeek 的高效 RL 算法 — 用"同组比较"替代 Critic 模型

?

点击"开始演示"，观看 GRPO 如何通过组内采样和比较来优化策略

❓ 输入问题 x

数学题：计算 ∫₀¹ x²·eˣ dx 的精确值

正确答案：e - 2 ≈ 0.7183

🎲 采样 G=8 个回答 {y₁, y₂, ..., y₈} ~ π_θ(·|x)

📐 组内标准化：Â_i = (r_i - μ) / σ

μ = (1/G) Σ r_i = ?

σ = √(Var(r)) = ?

Â > 0 → 强化 ↑ Â < 0 → 抑制 ↓

组内均值作为基准线，替代 PPO 的 Critic 模型 — 零参数、零训练误差

📊 策略概率更新 π_θ(y|x)

⚖️ GRPO vs PPO 对比

维度	PPO	GRPO	改善
模型数量	Policy + Critic + Ref	Policy + Ref	少 1 个 Critic
显存需求	≈ 3× 模型大小	≈ 1.5× 模型大小	节省约 50%
基准线来源	Critic 网络（有估计误差）	组内均值（非参数统计量）	更稳定
超参数	GAE λ, Critic LR, ...	clip ε, KL β, G	更少更易调
代价	每问题 1 个回答	每问题 G 个回答	采样成本 ↑