第16章 Agent 的评估与优化

如何知道你的 Agent 是"好"还是"不好"?评估和优化是从"能用"到"好用"的关键。


本章概览

Agent 开发不是"写完代码就完了"——你需要衡量它的表现,找到不足,持续改进。本章介绍系统化的评估方法、基准测试、Prompt 调优技巧、成本控制策略和可观测性体系。

本章目标

  • ✅ 掌握 Agent 评估的核心方法(规则评估、LLM评估、人类评估)
  • ✅ 了解业界常用的基准测试和评估指标
  • ✅ 学会系统化的 Prompt 调优流程
  • ✅ 实现成本控制和性能优化
  • ✅ 为 Agent 建立完善的可观测性体系

本章结构

小节内容
16.1 如何评估 Agent 的表现?评估维度、三种评估方法
16.2 基准测试与评估指标HumanEval、MMLU、自定义基准
16.3 Prompt 调优策略系统提示词优化、A/B测试
16.4 成本控制与性能优化模型路由、缓存、压缩
16.5 可观测性日志、追踪、监控

⏱️ 预计学习时间

90-120 分钟

💡 前置知识

  • 已完成第 11-15 章的框架实战和多 Agent 学习
  • 有至少一个可运行的 Agent 项目(便于实践评估方法)

🔗 学习路径

前置知识第11-15章 框架实战 & 多 Agent

后续推荐


下一节:16.1 如何评估 Agent 的表现?