Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

1.1 从聊天机器人到智能体的演进

📖 "要理解 Agent 是什么,最好的方式是看看它是从哪里来的。"

一段简短的历史

AI 与人类的交互方式经历了一段漫长而精彩的演进旅程。让我们坐上时光机,快速回顾这段历史:

AI 交互方式演进时间线

第一代:基于规则的聊天机器人

最早的聊天机器人完全依赖预设规则。1966 年 MIT 的 Joseph Weizenbaum 创造了 ELIZA [1]——这是历史上第一个能与人类"对话"的计算机程序。它通过简单的模式匹配来"伪装"成一个心理咨询师:

它的工作方式可以用一句话概括:先把用户输入和一组关键词规则逐条匹配,命中哪条规则就返回对应模板;如果没有命中,就进入兜底回复。

输入示例规则机器人会怎么处理暴露的问题
“你好”命中问候规则,返回固定欢迎语只能处理被写进规则里的表达
“今天天气怎样”命中“天气”关键词,返回预设天气话术并没有真正查询实时天气
“帮我订机票”没有匹配规则,只能说“听不懂”一旦超出规则边界就失效

这种系统看起来像在对话,本质上只是“关键词开关 + 回复模板”。

这种方式的问题显而易见:

规则机器人工作方式与问题

问题说明
🔴 理解能力为零只是匹配关键词,不理解语义
🔴 规则爆炸场景越多,规则越多,维护成本指数增长
🔴 无法泛化"天气好吗"能回答,"出门要带伞吗"就不行
🔴 无状态不记得之前说过什么,每轮对话都是独立的

第二代:基于意图识别的对话系统

2016 年左右,NLP 技术的发展催生了一批更智能的对话系统。苹果 Siri(2011)、微软 Cortana(2014)等虚拟助手相继问世,它们的核心思路是:先识别用户的意图,再做出相应的处理 [2]。

第二代系统的核心变化是把用户输入先转成结构化意图,再交给对应的业务流程处理。

阶段作用例子
意图识别判断用户想做什么“查天气”“订机票”“闲聊”
槽位填充提取完成任务所需的关键信息城市=北京,日期=明天
对话管理决定下一轮问什么或执行什么缺少出发地时继续追问

它比规则机器人更灵活,但“能做什么”仍然由开发者提前定义。用户一旦提出系统没有建模过的新需求,它仍然会退回到兜底逻辑。

第二代系统的处理流程:

意图识别系统处理流程

比第一代好在哪?

  • ✅ 有了"理解"的雏形(意图识别)
  • ✅ 能提取关键信息(槽位填充)
  • ✅ 更结构化的对话管理

但依然存在的问题:

  • 🔴 意图是预定义的,无法处理"意料之外"的请求
  • 🔴 多轮对话能力有限
  • 🔴 不能执行复杂的、需要多步骤的任务

第三代:LLM 驱动的对话 AI

2022 年底,ChatGPT 横空出世,带来了划时代的变革 [3]。大语言模型(LLM)不再需要预定义意图,它能理解任何自然语言输入:

LLM 驱动的对话 AI 不再依赖预定义意图。用户可以用任意自然语言表达需求,模型会直接生成回答。

例如,面对“北京明天出门需要带伞吗?”,LLM 能理解这是在问天气和出行建议,也能给出合理的语言回复。但如果没有接入实时天气工具,它只能基于已有知识或泛化经验回答,无法真的查询“明天北京”的最新天气。

这就是第三代系统的关键边界:理解能力显著增强,但行动能力仍然缺失

LLM 对话 AI 的特点:

LLM对话AI特点与局限

💡 LLM 知识渊博,但只能“纸上谈兵”,无法真正执行操作。

第四代:Agent —— 能说更能做

终于,我们来到了 Agent 时代。Agent 在 LLM 强大的理解和推理能力基础上,增加了行动能力 [4]。它不仅能理解你的需求,还能真正去执行:

Agent 的关键变化不是“回答更像人”,而是“能够把回答转化为行动”。

以“北京明天需要带伞吗?”为例,一个 Agent 通常会经历下面的闭环:

步骤Agent 做什么结果
理解需求判断用户真正想知道的是天气和出行建议明确需要实时信息
选择工具决定调用天气查询工具,而不是凭记忆回答找到可执行动作
执行工具向天气 API 传入城市和日期获得最新天气数据
生成回复把工具结果转成自然语言建议告诉用户是否需要带伞

所以,Agent 可以被理解为:LLM 负责理解和决策,工具负责连接真实世界,循环机制负责根据反馈继续修正。具体的 Function Calling 代码会在第 3 章展开,这里先建立整体直觉。

四代演进对比总结

下面这张图清晰地展示了四代 AI 交互方式的核心区别:

四代AI系统能力对比

能力规则机器人意图识别LLM 对话 AIAgent
语言理解🟡
开放域对话
使用工具🟡
自主决策
任务执行🟡
多步规划
自我纠错🟡

图例:✅ 支持 🟡 部分支持 ❌ 不支持

关键洞察

💡 Agent 的本质飞跃在于:从"只会说"到"能做事"。

  • 聊天机器人 = 嘴(只能对话)
  • Agent = 大脑 + 嘴 + 手脚(能思考、能说话、能行动)

用一个生活类比来理解:

生活类比:从导诊台到真正的医生

小结

  • AI 交互方式经历了 规则 → 意图识别 → LLM → Agent 四个阶段
  • 每一代都在前一代的基础上增加了新的能力
  • Agent 的核心突破是:在 LLM 的理解和推理能力上,增加了行动能力
  • Agent 可以使用工具、执行任务、做出决策,而不仅仅是生成文本

🤔 思考练习

  1. 你日常使用的 AI 产品(如 Siri、ChatGPT、Copilot)分别属于哪一代?
  2. 想一想,如果给 ChatGPT 配上"手脚"(工具),它能帮你完成哪些目前做不到的事?
  3. 你认为 Agent 的下一代演进方向可能是什么?

在下一节中,我们将正式给出 Agent 的定义,并深入了解它的核心特征。


参考文献

[1] WEIZENBAUM J. ELIZA — A computer program for the study of natural language communication between man and machine[J]. Communications of the ACM, 1966, 9(1): 36-45.

[2] CHEN H, LIU X, YIN D, et al. A survey on dialogue systems: Recent advances and new frontiers[J]. ACM SIGKDD Explorations Newsletter, 2017, 19(2): 25-35.

[3] OPENAI. GPT-4 technical report[R]. arXiv preprint arXiv:2303.08774, 2023.

[4] XI Z, CHEN W, GUO X, et al. The rise and potential of large language model based agents: A survey[R]. arXiv preprint arXiv:2309.07864, 2023.