Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

第18章 安全与可靠性

Agent 拥有了工具和自主性,安全问题就变得尤为重要。这一章是从"能用"到"敢用"的关键。


🎓 学习目标

完成本章学习后,你将能够:

  • ✅ 理解 Prompt 注入攻击的类型和多层防御策略
  • ✅ 掌握减少 Agent 幻觉、提升事实性的方法
  • ✅ 实现权限控制和沙箱隔离机制
  • ✅ 了解敏感数据保护的工程实践(PII 检测、脱敏)
  • ✅ 理解 Agent 对齐与行为可控性的核心挑战
  • ✅ 掌握 Guardrails 运行时防护与红队测试方法论

⏱️ 预计学习时间

90-120 分钟

💡 前置知识

  • 完成第4~8章(核心能力篇)与第17章(评估与优化)
  • 了解网络安全基础知识(SQL 注入、XSS 等概念)

📚 本章结构

Agent 的安全与可靠性涉及多个方面:Prompt 注入防御、幻觉控制、权限管理、数据保护、行为对齐,以及运行时防护和红队测试。本章逐一讲解每个方面的原理和实用防御方案。

小节内容
18.1 Prompt 注入攻击与防御攻击手法、多层防御
18.2 幻觉问题与事实性保障引用验证、RAG 核查
18.3 权限控制与沙箱隔离最小权限、代码沙箱
18.4 敏感数据保护PII 检测、数据脱敏
18.5 Agent 行为的可控性与对齐行为边界、拒绝策略
18.6 论文解读:安全与可靠性前沿研究学术前沿
18.7 Guardrails 运行时防护运行时拦截与校验
18.8 红队测试方法论主动攻击演练

🔗 学习路径

前置知识第17章 Agent 的评估与优化

后续推荐


下一节:18.1 Prompt 注入攻击与防御