第18章安全与可靠性

Agent 拥有了工具和自主性，安全问题就变得尤为重要。这一章是从"能用"到"敢用"的关键。

🎓 学习目标

完成本章学习后，你将能够：

✅ 理解 Prompt 注入攻击的类型和多层防御策略
✅ 掌握减少 Agent 幻觉、提升事实性的方法
✅ 实现权限控制和沙箱隔离机制
✅ 了解敏感数据保护的工程实践（PII 检测、脱敏）
✅ 理解 Agent 对齐与行为可控性的核心挑战
✅ 掌握 Guardrails 运行时防护与红队测试方法论

⏱️ 预计学习时间

约 90-120 分钟

💡 前置知识

完成第4~8章（核心能力篇）与第17章（评估与优化）
了解网络安全基础知识（SQL 注入、XSS 等概念）

📚 本章结构

Agent 的安全与可靠性涉及多个方面：Prompt 注入防御、幻觉控制、权限管理、数据保护、行为对齐，以及运行时防护和红队测试。本章逐一讲解每个方面的原理和实用防御方案。

小节	内容
18.1 Prompt 注入攻击与防御	攻击手法、多层防御
18.2 幻觉问题与事实性保障	引用验证、RAG 核查
18.3 权限控制与沙箱隔离	最小权限、代码沙箱
18.4 敏感数据保护	PII 检测、数据脱敏
18.5 Agent 行为的可控性与对齐	行为边界、拒绝策略
18.6 论文解读：安全与可靠性前沿研究	学术前沿
18.7 Guardrails 运行时防护	运行时拦截与校验
18.8 红队测试方法论	主动攻击演练

🔗 学习路径

前置知识：第17章 Agent 的评估与优化

后续推荐：

👉 第19章部署与生产化 — 在部署中实践安全策略

👉 第20章项目实战：AI 编程助手 — 在实战项目中应用安全实践

下一节：18.1 Prompt 注入攻击与防御