第23章项目实战：多模态 Agent

🎨 "真实世界的信息不只有文字——图片、语音、视频都是 Agent 需要理解的语言。"

🎓 学习目标

完成本章学习后，你将能够：

✅ 理解多模态 Agent 的能力边界和应用场景
✅ 掌握视觉理解（图像分析）的集成方式
✅ 实现语音输入/输出与 Agent 的集成
✅ 构建一个具备图像和语音能力的多模态个人助手

⏱️ 预计学习时间

约 150-180 分钟（综合实战项目）

💡 前置知识

完成第一至五部分所有章节
了解 base64 编码和多部分 HTTP 请求

🔗 学习路径

后续推荐：

👉 返回目录

本章概览

在前面的章节中，我们构建的 Agent 都只处理文本。但真实世界中，信息以多种形式存在——用户可能发一张截图问"这个错误怎么解决"，或者用语音说"帮我分析这张图表"。多模态 Agent 能理解和生成多种类型的内容，大大拓展了应用场景。本章将带你从零构建一个能同时处理文本、图像和语音的多模态个人助理。

本章目标

学完本章，你将能够：

✅ 了解多模态模型的核心能力和应用场景
✅ 用 GPT-4.1 实现图像理解与分析
✅ 用 DALL-E 实现图像生成
✅ 集成语音识别（STT）和语音合成（TTS）
✅ 构建一个完整的多模态个人助理 Agent

本章结构

小节	内容	难度
21.1 多模态能力概述	多模态模型的能力和应用场景	⭐⭐
21.2 图像理解与生成	GPT-4.1 分析图像，DALL-E 生成图像	⭐⭐⭐
21.3 语音交互集成	语音识别和语音合成	⭐⭐⭐
21.4 实战：多模态个人助理	构建完整的多模态 Agent	⭐⭐⭐⭐

⏱️ 预计学习时间

约 90-120 分钟（含实战练习）

💡 前置知识

已完成前面章节的 Agent 开发基础
了解 OpenAI API 的基本使用（包括 Vision 和 Audio API）
Python 异步编程基础（async/await）

🔗 学习路径

核心前置知识：第4章工具调用、第13章 LangGraph 推荐但非必须：第16-18章生产化篇

同系列项目：

🔨 第19章 AI 编程助手

📊 第22章数据分析 Agent

下一节：21.1 多模态能力概述

Keyboard shortcuts

从零开始学 Agent