Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

1.6 智能体发展史:从符号主义到大模型驱动

📖 "不了解历史,就无法真正理解当下。Agent 的每一次跃迁,都站在前人的肩膀之上。"

为什么要了解发展史?

"Agent"这个概念并非 LLM 时代的发明。从 1950 年代 AI 学科诞生之日起,如何构建能够自主行动的智能系统就是核心研究命题。了解这段历史,能让我们:

  1. 理解当前 Agent 架构设计背后的学术渊源
  2. 避免"重新发明轮子"——很多经典方法仍在发挥作用
  3. 预判未来 Agent 技术的演进方向

智能体发展史时间线

第一阶段:符号主义智能体(1950s—1980s)

图灵的预言

1950 年,Alan Turing 发表了划时代的论文《Computing Machinery and Intelligence》[1],提出了"机器能思考吗?"这个根本性问题,并设计了著名的"图灵测试"。这篇论文为整个 AI 领域奠定了哲学基础。

早期专家系统

符号主义(Symbolism)认为智能的本质是符号操作:通过逻辑规则推理来模拟人类思维。这一时期的代表性系统包括:

  • SHRDLU(1970)[2]:MIT 的 Terry Winograd 开发的自然语言理解系统,能在一个由积木组成的虚拟世界中理解并执行指令(如"把红色方块放在蓝色方块上面")。它是最早的"能理解语言并执行动作"的系统——某种意义上,这就是最原始的 Agent。

  • MYCIN(1976)[3]:斯坦福大学开发的医学诊断专家系统,使用约 600 条规则来诊断细菌感染并推荐抗生素。在临床测试中,MYCIN 的诊断准确率达到 69%,超过了当时大多数非专科医生。

  • STRIPS(1971)[4]:SRI International 开发的自动化规划系统,为机器人 Shakey 提供行动规划能力。STRIPS 提出的"前置条件-动作-效果"规划范式,至今仍是 AI 规划领域的基础框架。

STRIPS 的核心思想可以不用代码理解:每个动作都由三部分组成——前置条件动作本身执行后的效果

以“移动积木”为例:

部分含义示例
前置条件动作发生前必须满足什么积木是空闲的,目标位置是空闲的
动作系统实际执行什么把积木从 A 移到 B
效果执行后世界状态如何变化积木位于 B,A 变为空闲

这种“条件—动作—效果”的表达方式,正是今天 Agent 工具调用和任务规划的早期思想来源。

符号主义的局限

符号主义 Agent 在封闭领域内表现出色,但面临根本性瓶颈:

问题说明
知识获取瓶颈规则需要人工手动编写,数量呈指数增长
脆弱性遇到规则未覆盖的情况就完全失效
常识缺失无法处理"不言自明"的常识知识
可扩展性差规则库越大,规则之间的冲突越难管理

💡 与当代 Agent 的联系:符号主义的"规则+推理"思路并未消亡。在今天的 LLM Agent 中,系统提示词(System Prompt) 其实就是一种软性"规则",而工具的参数约束则是硬性规则。区别在于 LLM 用统计学习取代了手工编码的逻辑推理。

第二阶段:心智社会与分布式智能(1980s—1990s)

明斯基的"心智社会"

1986 年,MIT 人工智能实验室的创始人之一 Marvin Minsky 出版了《心智社会(The Society of Mind)》[5]。他提出了一个革命性的观点:

智能不是单一能力的体现,而是大量"不那么聪明"的小 Agent(Minsky 称之为 "agency")协作的结果。

这个理论的核心思想是:

  • 每个小 Agent 只负责一件简单的事(如"识别颜色"、"计算距离")
  • 复杂的智能行为由这些小 Agent 的层级协作涌现出来
  • 不同的小 Agent 之间会竞争和合作

“心智社会”的重点不在于某个复杂类如何实现,而在于:智能可以由许多能力有限的小模块协作涌现出来

小 Agent擅长的事协作价值
语言理解者解析用户意图把自然语言转成任务目标
规划者拆解步骤决定先做什么、后做什么
执行者调用工具把计划落实到外部动作
评估者检查结果判断是否需要重试或修正

现代多 Agent 系统仍然沿用这一思想:单个模块不必全能,只要接口清晰、反馈闭环可靠,整体就能表现出复杂智能。

BDI 架构

1990 年代,Rao 和 Georgeff 提出了 BDI(Belief-Desire-Intention)架构 [6],成为理性 Agent 的标准理论框架:

  • Belief(信念):Agent 对世界的认知("我认为现在的交通状况很拥堵")
  • Desire(愿望):Agent 想要达成的目标("我想在 30 分钟内到达公司")
  • Intention(意图):Agent 决定采取的行动计划("我选择坐地铁而不是开车")

BDI 架构可以理解为三个层次:

层次含义在现代 Agent 中的对应物
Belief(信念)Agent 当前认为世界是什么样观察结果、上下文、记忆
Desire(愿望)Agent 想达成什么目标用户任务、系统目标、奖励信号
Intention(意图)Agent 当前承诺执行的计划任务分解、工具调用序列

它提供了一种非常直观的 Agent 心智模型:先看见世界,再确定目标,最后选择并坚持一条行动路径。

💡 BDI 与 ReAct 的联系:如果你对比 BDI 架构和 ReAct 框架 [7],会发现惊人的相似性——ReAct 中的 Thought 对应 BDI 的 Belief + 推理过程,Action 对应 Intention 的执行,Observation 对应 Belief 的更新。ReAct 本质上是用 LLM 实现了 BDI 架构中的"审慎推理"过程。

第三阶段:联结主义与深度学习(1990s—2020s)

从统计学习到神经网络

1990 年代后期,随着计算能力的提升和数据量的增长,联结主义(Connectionism) 逐渐占据主流。其核心思想是:智能可以通过大量简单计算单元(神经元)的连接和学习来涌现。

关键里程碑:

  • 1997 年 Deep Blue:IBM 的国际象棋程序击败世界冠军卡斯帕罗夫,但本质仍是搜索+启发式算法
  • 2012 年 AlexNet [8]:深度卷积神经网络在 ImageNet 竞赛中取得突破性成绩,开启深度学习革命
  • 2016 年 AlphaGo [9]:DeepMind 的围棋程序击败李世石,将深度强化学习推向大众视野。AlphaGo 可以被视为一个复杂的"游戏 Agent"——它能感知棋盘状态、推理最优走法、并执行落子动作

强化学习 Agent

深度强化学习(Deep RL)为 Agent 领域带来了一套系统的数学框架。Agent 被建模为在环境中采取行动以最大化累计奖励的实体 [10]:

强化学习 Agent 的交互循环可以概括为:

  1. Agent 观察环境状态。
  2. 根据策略选择一个动作。
  3. 环境返回新状态和奖励。
  4. Agent 根据奖励更新策略。
  5. 重复以上步骤,直到任务结束。

LLM Agent 虽然通常不在每次运行时更新模型权重,但仍然继承了这个闭环思想:把工具返回、错误信息和用户反馈作为“环境奖励”,再通过上下文记忆影响下一步决策。

💡 RL 到 LLM Agent 的传承:强化学习的 Agent 循环(State→Action→Reward→NewState)直接映射到今天 LLM Agent 的工作循环(Observation→Thought→Action→Result)。唯一的区别是:RL Agent 的策略由数值化的神经网络驱动,而 LLM Agent 的策略由自然语言推理驱动。

Attention Is All You Need

2017 年,Google 的研究团队发表了具有里程碑意义的 Transformer 论文 [11],提出了完全基于注意力机制的序列到序列模型。这篇论文直接催生了:

  • GPT 系列(OpenAI):生成式预训练 + 指令微调
  • BERT(Google):双向编码器,在理解任务上取得突破
  • T5、PaLM、LLaMA 等后续模型

Transformer 架构使得模型规模可以高效地扩展到数千亿参数,为 LLM 时代的到来奠定了技术基础。

第四阶段:LLM 驱动的智能体(2023—至今)

从语言模型到通用智能体

2022-2023 年,以 ChatGPT/GPT-4 为代表的大语言模型证明了一个关键假设:足够大的语言模型能够涌现出推理、规划、工具使用等高层认知能力 [12]。这使得"Agent"的实现方式发生了根本性转变:

维度传统 AgentLLM 驱动的 Agent
决策引擎规则/搜索/RL 策略网络大语言模型
知识来源手动编码的知识库预训练中习得的世界知识
交互方式结构化输入/输出自然语言
泛化能力仅限训练域跨领域泛化
开发成本需要大量领域工程Prompt + Tool 即可构建

标志性里程碑

2023 年:概念验证阶段

  • ReAct [7]:将推理和行动统一到一个 LLM 交互循环中,成为 Agent 的基础范式
  • AutoGPT(2023.3):第一个引起全球关注的自主 Agent 项目,证明 LLM 可以自主规划和执行复杂任务
  • Generative Agents [13](2023.4):Stanford 的"AI 小镇"实验,25 个 Agent 在虚拟小镇中自主生活、社交和记忆,展示了 Agent 的社会行为涌现
  • Voyager [14](2023.5):NVIDIA 的 Minecraft Agent,能自主探索、学习技能并编写代码,展示了终身学习能力

2024 年:工程化阶段

  • Devin(2024.3):Cognition AI 推出的首个"AI 软件工程师",在 SWE-bench 上取得突破
  • SWE-Agent [15](2024.6):Princeton 的开源代码 Agent,系统性地设计了 Agent-Computer Interface (ACI)
  • MCP 协议(2024.11):Anthropic 发布 Model Context Protocol,标准化工具集成
  • A2A 协议(2025.4):Google 发布 Agent-to-Agent Protocol,标准化 Agent 间通信

2025 年:规模化应用阶段

  • Claude Code / Codex CLI:Agent 进入开发者日常工作流
  • OpenAI Agents SDK:官方 Agent 开发框架
  • DeepSWE:纯 RL 训练的开源代码 Agent,在 SWE-bench Verified 上达到 59% SOTA
  • Anthropic 发布 Building Effective Agents 指南 [16],强调"简单组合优于复杂框架"
  • OpenAI 发布 A Practical Guide to Building Agents [17],提供完整的工程化最佳实践

当代 Agent 的三大范式

经过几年的快速发展,LLM 驱动的 Agent 形成了三大主要范式:

当代 Agent 三大范式

发展脉络总结

整个智能体发展史可以用一条清晰的主线串联:

从"写规则"到"学规则",再到"用语言替代规则"——Agent 的能力来源在不断抽象化和通用化。

时期范式Agent 能力来源代表
1950s-1980s符号主义人工编写的逻辑规则MYCIN, SHRDLU, STRIPS
1980s-1990s分布式智能多 Agent 协作涌现BDI 架构, 心智社会
1990s-2020s联结主义数据驱动的统计学习AlphaGo, DQN
2023-至今LLM 驱动预训练知识 + 自然语言推理GPT-4 Agent, Claude Agent

小结

  • Agent 的概念贯穿了 AI 70 余年的发展史,远比 LLM 时代更早
  • 符号主义奠定了"规则+推理"的基础,BDI 架构定义了理性 Agent 的理论框架
  • 深度学习和强化学习提供了数据驱动的学习能力
  • LLM 的出现实现了"质变":Agent 首次获得了跨领域的通用推理和规划能力
  • 理解历史有助于我们更好地设计和构建当代 Agent 系统

🤔 思考练习

  1. MYCIN 的 600 条规则和今天 Agent 的 System Prompt,本质区别在哪里?
  2. 明斯基的"心智社会"理论如何启发了今天的多 Agent 框架设计?
  3. 从 STRIPS 到 ReAct,Agent 的"规划"能力经历了怎样的演变?
  4. 你认为下一个阶段的 Agent 会是什么样的?

参考文献

[1] TURING A M. Computing machinery and intelligence[J]. Mind, 1950, 59(236): 433-460.

[2] WINOGRAD T. Understanding Natural Language[M]. New York: Academic Press, 1972.

[3] SHORTLIFFE E H, BUCHANAN B G. A model of inexact reasoning in medicine[J]. Mathematical Biosciences, 1975, 23(3-4): 351-379.

[4] FIKES R E, NILSSON N J. STRIPS: A new approach to the application of theorem proving to problem solving[J]. Artificial Intelligence, 1971, 2(3-4): 189-208.

[5] MINSKY M. The Society of Mind[M]. New York: Simon & Schuster, 1986.

[6] RAO A S, GEORGEFF M P. BDI agents: From theory to practice[C]//Proceedings of the First International Conference on Multi-Agent Systems (ICMAS). 1995: 312-319.

[7] YAO S, ZHAO J, YU D, et al. ReAct: Synergizing reasoning and acting in language models[C]//ICLR. 2023.

[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//NeurIPS. 2012: 1097-1105.

[9] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

[10] SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. 2nd ed. Cambridge: MIT Press, 2018.

[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//NeurIPS. 2017: 5998-6008.

[12] WEI J, TAY Y, BOMMASANI R, et al. Emergent abilities of large language models[J]. Transactions on Machine Learning Research, 2022.

[13] PARK J S, O'BRIEN J C, CAI C J, et al. Generative agents: Interactive simulacra of human behavior[C]//UIST. 2023.

[14] WANG G, XIE Y, JIANG Y, et al. Voyager: An open-ended embodied agent with large language models[R]. arXiv preprint arXiv:2305.16291, 2023.

[15] YANG J, JIMENEZ C E, WETTIG A, et al. SWE-agent: Agent-computer interfaces enable automated software engineering[R]. arXiv preprint arXiv:2405.15793, 2024.

[16] ANTHROPIC. Building effective agents[EB/OL]. 2024. https://www.anthropic.com/engineering/building-effective-agents.

[17] OPENAI. A practical guide to building agents[R]. 2025. https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf.


📚 第一章总结

恭喜你完成了第一章的学习!🎉 让我们回顾一下学到的核心概念:

第一章核心知识图谱

节次核心收获
1.1 演进历程AI 交互经历了规则→意图→LLM→Agent 四代演进,Agent 的本质飞跃是"从说到做"
1.2 核心概念Agent = LLM + Memory + Planning + Tools,五大核心特征:自主性、感知、推理、行动、学习
1.3 架构循环感知-思考-行动(OTA)闭环,FSM 状态机调度,四层护栏防止循环崩溃
1.4 与传统程序的区别传统程序是静态 DAG,Agent 是动态概率路由;各有适用场景,不要为了 Agent 而 Agent
1.5 应用场景编程、数据分析、教育、办公、电商、科研……几乎覆盖所有认知密集型场景
1.6 发展史从符号主义到 BDI 到深度 RL 再到 LLM,Agent 能力来源不断抽象化和通用化

下一章:第2章 大语言模型基础