Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第17章 Agent 的评估与优化

如何知道你的 Agent 是"好"还是"不好"?评估和优化是从"能用"到"好用"的关键。


🎓 学习目标

完成本章学习后,你将能够:

  • ✅ 掌握评估 Agent 表现的系统方法(规则评估、LLM 评估、人类评估)和核心指标
  • ✅ 了解 SWE-bench、GAIA、WebArena 等主流基准测试
  • ✅ 实施系统化的 Prompt 调优迭代流程
  • ✅ 掌握成本控制与性能优化的实践技巧(模型路由、缓存、压缩)
  • ✅ 构建可观测的 Agent 系统(日志、追踪、监控)

⏱️ 预计学习时间

90-120 分钟

💡 前置知识

  • 完成第4~9章(核心能力篇)与第11~16章(框架实战、多 Agent)
  • 有至少一个可运行的 Agent 项目(便于实践评估方法)

📚 本章结构

Agent 开发不是"写完代码就完了"——你需要衡量它的表现,找到不足,持续改进。本章介绍系统化的评估方法、基准测试、Prompt 调优技巧、成本控制策略和可观测性体系。

小节内容
17.1 如何评估 Agent 的表现?评估维度、三种评估方法
17.2 基准测试与评估指标SWE-bench、GAIA、WebArena、自定义基准
17.3 Prompt 调优策略系统提示词优化、A/B 测试
17.4 成本控制与性能优化模型路由、缓存、压缩
17.5 可观测性日志、追踪、监控

🔗 学习路径

前置知识第11章 LangChain 深入实战

后续推荐


下一节:17.1 如何评估 Agent 的表现?