第18章 安全与可靠性
Agent 拥有了工具和自主性,安全问题就变得尤为重要。这一章是从"能用"到"敢用"的关键。
🎓 学习目标
完成本章学习后,你将能够:
- ✅ 理解 Prompt 注入攻击的类型和多层防御策略
- ✅ 掌握减少 Agent 幻觉、提升事实性的方法
- ✅ 实现权限控制和沙箱隔离机制
- ✅ 了解敏感数据保护的工程实践(PII 检测、脱敏)
- ✅ 理解 Agent 对齐与行为可控性的核心挑战
- ✅ 掌握 Guardrails 运行时防护与红队测试方法论
⏱️ 预计学习时间
约 90-120 分钟
💡 前置知识
- 完成第4~8章(核心能力篇)与第17章(评估与优化)
- 了解网络安全基础知识(SQL 注入、XSS 等概念)
📚 本章结构
Agent 的安全与可靠性涉及多个方面:Prompt 注入防御、幻觉控制、权限管理、数据保护、行为对齐,以及运行时防护和红队测试。本章逐一讲解每个方面的原理和实用防御方案。
| 小节 | 内容 |
|---|---|
| 18.1 Prompt 注入攻击与防御 | 攻击手法、多层防御 |
| 18.2 幻觉问题与事实性保障 | 引用验证、RAG 核查 |
| 18.3 权限控制与沙箱隔离 | 最小权限、代码沙箱 |
| 18.4 敏感数据保护 | PII 检测、数据脱敏 |
| 18.5 Agent 行为的可控性与对齐 | 行为边界、拒绝策略 |
| 18.6 论文解读:安全与可靠性前沿研究 | 学术前沿 |
| 18.7 Guardrails 运行时防护 | 运行时拦截与校验 |
| 18.8 红队测试方法论 | 主动攻击演练 |
🔗 学习路径
前置知识:第17章 Agent 的评估与优化
后续推荐:
- 👉 第19章 部署与生产化 — 在部署中实践安全策略
- 👉 第20章 项目实战:AI 编程助手 — 在实战项目中应用安全实践