第21章 项目实战:多模态 Agent

🎨 "真实世界的信息不只有文字——图片、语音、视频都是 Agent 需要理解的语言。"


本章概览

在前面的章节中,我们构建的 Agent 都只处理文本。但真实世界中,信息以多种形式存在——用户可能发一张截图问"这个错误怎么解决",或者用语音说"帮我分析这张图表"。多模态 Agent 能理解和生成多种类型的内容,大大拓展了应用场景。本章将带你从零构建一个能同时处理文本、图像和语音的多模态个人助理。

本章目标

学完本章,你将能够:

  • ✅ 了解多模态模型的核心能力和应用场景
  • ✅ 用 GPT-4o 实现图像理解与分析
  • ✅ 用 DALL-E 实现图像生成
  • ✅ 集成语音识别(STT)和语音合成(TTS)
  • ✅ 构建一个完整的多模态个人助理 Agent

本章结构

小节内容难度
21.1 多模态能力概述多模态模型的能力和应用场景⭐⭐
21.2 图像理解与生成GPT-4o 分析图像,DALL-E 生成图像⭐⭐⭐
21.3 语音交互集成语音识别和语音合成⭐⭐⭐
21.4 实战:多模态个人助理构建完整的多模态 Agent⭐⭐⭐⭐

⏱️ 预计学习时间

90-120 分钟(含实战练习)

💡 前置知识

  • 已完成前面章节的 Agent 开发基础
  • 了解 OpenAI API 的基本使用(包括 Vision 和 Audio API)
  • Python 异步编程基础(async/await

🔗 学习路径

核心前置知识第4章 工具调用第12章 LangGraph 推荐但非必须:第16-18章 生产化篇

同系列项目


下一节:21.1 多模态能力概述