第16章 Agent 的评估与优化
如何知道你的 Agent 是"好"还是"不好"?评估和优化是从"能用"到"好用"的关键。
本章概览
Agent 开发不是"写完代码就完了"——你需要衡量它的表现,找到不足,持续改进。本章介绍系统化的评估方法、基准测试、Prompt 调优技巧、成本控制策略和可观测性体系。
本章目标
- ✅ 掌握 Agent 评估的核心方法(规则评估、LLM评估、人类评估)
- ✅ 了解业界常用的基准测试和评估指标
- ✅ 学会系统化的 Prompt 调优流程
- ✅ 实现成本控制和性能优化
- ✅ 为 Agent 建立完善的可观测性体系
本章结构
| 小节 | 内容 |
|---|---|
| 16.1 如何评估 Agent 的表现? | 评估维度、三种评估方法 |
| 16.2 基准测试与评估指标 | HumanEval、MMLU、自定义基准 |
| 16.3 Prompt 调优策略 | 系统提示词优化、A/B测试 |
| 16.4 成本控制与性能优化 | 模型路由、缓存、压缩 |
| 16.5 可观测性 | 日志、追踪、监控 |
⏱️ 预计学习时间
约 90-120 分钟
💡 前置知识
- 已完成第 11-15 章的框架实战和多 Agent 学习
- 有至少一个可运行的 Agent 项目(便于实践评估方法)
🔗 学习路径
后续推荐:
- 👉 第17章 安全与可靠性 — 安全也是"质量"的一部分
- 👉 第18章 部署与生产化 — 评估指标驱动的生产优化