第16章 Agent 的评估与优化

如何知道你的 Agent 是"好"还是"不好"？评估和优化是从"能用"到"好用"的关键。

本章概览

Agent 开发不是"写完代码就完了"——你需要衡量它的表现，找到不足，持续改进。本章介绍系统化的评估方法、基准测试、Prompt 调优技巧、成本控制策略和可观测性体系。

本章目标

✅ 掌握 Agent 评估的核心方法（规则评估、LLM评估、人类评估）
✅ 了解业界常用的基准测试和评估指标
✅ 学会系统化的 Prompt 调优流程
✅ 实现成本控制和性能优化
✅ 为 Agent 建立完善的可观测性体系

本章结构

小节	内容
16.1 如何评估 Agent 的表现？	评估维度、三种评估方法
16.2 基准测试与评估指标	HumanEval、MMLU、自定义基准
16.3 Prompt 调优策略	系统提示词优化、A/B测试
16.4 成本控制与性能优化	模型路由、缓存、压缩
16.5 可观测性	日志、追踪、监控

⏱️ 预计学习时间

约 90-120 分钟

💡 前置知识

已完成第 11-15 章的框架实战和多 Agent 学习
有至少一个可运行的 Agent 项目（便于实践评估方法）

🔗 学习路径

前置知识：第11-15章框架实战 & 多 Agent

后续推荐：

👉 第17章安全与可靠性 — 安全也是"质量"的一部分

👉 第18章部署与生产化 — 评估指标驱动的生产优化

下一节：16.1 如何评估 Agent 的表现？