第17章 安全与可靠性

Agent 拥有了工具和自主性,安全问题就变得尤为重要。这一章是从"能用"到"敢用"的关键。


本章概览

Agent 的安全与可靠性涉及五个方面:Prompt 注入防御、幻觉控制、权限管理、数据保护和行为对齐。本章逐一讲解每个方面的原理和实用防御方案。

本章目标

  • ✅ 理解 Prompt 注入的原理和防御策略
  • ✅ 掌握减少幻觉、提高事实性的技术
  • ✅ 设计最小权限体系和代码执行沙箱
  • ✅ 实现敏感数据的检测和脱敏
  • ✅ 构建行为边界和拒绝策略

本章结构

小节内容
17.1 Prompt 注入攻击与防御攻击手法、多层防御
17.2 幻觉问题与事实性保障引用验证、RAG核查
17.3 权限控制与沙箱隔离最小权限、代码沙箱
17.4 敏感数据保护PII检测、数据脱敏
17.5 Agent 行为的可控性与对齐行为边界、拒绝策略

⏱️ 预计学习时间

90-120 分钟

💡 前置知识

  • 已完成第 16 章(评估与优化)
  • 了解常见的 Web 安全概念(如注入攻击)会有帮助

🔗 学习路径

前置知识第16章 评估与优化

后续推荐


下一节:17.1 Prompt 注入攻击与防御