第17章 Agent 的评估与优化

如何知道你的 Agent 是"好"还是"不好"？评估和优化是从"能用"到"好用"的关键。

🎓 学习目标

完成本章学习后，你将能够：

约 90-120 分钟

Agent 开发不是"写完代码就完了"——你需要衡量它的表现，找到不足，持续改进。本章介绍系统化的评估方法、基准测试、Prompt 调优技巧、成本控制策略和可观测性体系。

小节	内容
17.1 如何评估 Agent 的表现？	评估维度、三种评估方法
17.2 基准测试与评估指标	SWE-bench、GAIA、WebArena、自定义基准
17.3 Prompt 调优策略	系统提示词优化、A/B 测试
17.4 成本控制与性能优化	模型路由、缓存、压缩
17.5 可观测性	日志、追踪、监控

前置知识：第11章 LangChain 深入实战

后续推荐：

👉 第18章安全与可靠性 — 安全也是"质量"的一部分

👉 第19章部署与生产化 — 评估指标驱动的生产优化