第17章 Agent 的评估与优化
如何知道你的 Agent 是"好"还是"不好"?评估和优化是从"能用"到"好用"的关键。
🎓 学习目标
完成本章学习后,你将能够:
- ✅ 掌握评估 Agent 表现的系统方法(规则评估、LLM 评估、人类评估)和核心指标
- ✅ 了解 SWE-bench、GAIA、WebArena 等主流基准测试
- ✅ 实施系统化的 Prompt 调优迭代流程
- ✅ 掌握成本控制与性能优化的实践技巧(模型路由、缓存、压缩)
- ✅ 构建可观测的 Agent 系统(日志、追踪、监控)
⏱️ 预计学习时间
约 90-120 分钟
💡 前置知识
- 完成第4~9章(核心能力篇)与第11~16章(框架实战、多 Agent)
- 有至少一个可运行的 Agent 项目(便于实践评估方法)
📚 本章结构
Agent 开发不是"写完代码就完了"——你需要衡量它的表现,找到不足,持续改进。本章介绍系统化的评估方法、基准测试、Prompt 调优技巧、成本控制策略和可观测性体系。
| 小节 | 内容 |
|---|---|
| 17.1 如何评估 Agent 的表现? | 评估维度、三种评估方法 |
| 17.2 基准测试与评估指标 | SWE-bench、GAIA、WebArena、自定义基准 |
| 17.3 Prompt 调优策略 | 系统提示词优化、A/B 测试 |
| 17.4 成本控制与性能优化 | 模型路由、缓存、压缩 |
| 17.5 可观测性 | 日志、追踪、监控 |
🔗 学习路径
前置知识:第11章 LangChain 深入实战
后续推荐:
- 👉 第18章 安全与可靠性 — 安全也是"质量"的一部分
- 👉 第19章 部署与生产化 — 评估指标驱动的生产优化