1.6 智能体发展史：从符号主义到大模型驱动

📖 "不了解历史，就无法真正理解当下。Agent 的每一次跃迁，都站在前人的肩膀之上。"

为什么要了解发展史？

"Agent"这个概念并非 LLM 时代的发明。从 1950 年代 AI 学科诞生之日起，如何构建能够自主行动的智能系统就是核心研究命题。了解这段历史，能让我们：

理解当前 Agent 架构设计背后的学术渊源
避免"重新发明轮子"——很多经典方法仍在发挥作用
预判未来 Agent 技术的演进方向

智能体发展史时间线

第一阶段：符号主义智能体（1950s—1980s）

图灵的预言

1950 年，Alan Turing 发表了划时代的论文《Computing Machinery and Intelligence》[1]，提出了"机器能思考吗？"这个根本性问题，并设计了著名的"图灵测试"。这篇论文为整个 AI 领域奠定了哲学基础。

早期专家系统

符号主义（Symbolism）认为智能的本质是符号操作：通过逻辑规则推理来模拟人类思维。这一时期的代表性系统包括：

SHRDLU（1970）[2]：MIT 的 Terry Winograd 开发的自然语言理解系统，能在一个由积木组成的虚拟世界中理解并执行指令（如"把红色方块放在蓝色方块上面"）。它是最早的"能理解语言并执行动作"的系统——某种意义上，这就是最原始的 Agent。
MYCIN（1976）[3]：斯坦福大学开发的医学诊断专家系统，使用约 600 条规则来诊断细菌感染并推荐抗生素。在临床测试中，MYCIN 的诊断准确率达到 69%，超过了当时大多数非专科医生。
STRIPS（1971）[4]：SRI International 开发的自动化规划系统，为机器人 Shakey 提供行动规划能力。STRIPS 提出的"前置条件-动作-效果"规划范式，至今仍是 AI 规划领域的基础框架。

STRIPS 的核心思想可以不用代码理解：每个动作都由三部分组成——前置条件、动作本身和执行后的效果。

以“移动积木”为例：

部分	含义	示例
前置条件	动作发生前必须满足什么	积木是空闲的，目标位置是空闲的
动作	系统实际执行什么	把积木从 A 移到 B
效果	执行后世界状态如何变化	积木位于 B，A 变为空闲

这种“条件—动作—效果”的表达方式，正是今天 Agent 工具调用和任务规划的早期思想来源。

符号主义的局限

符号主义 Agent 在封闭领域内表现出色，但面临根本性瓶颈：

问题	说明
知识获取瓶颈	规则需要人工手动编写，数量呈指数增长
脆弱性	遇到规则未覆盖的情况就完全失效
常识缺失	无法处理"不言自明"的常识知识
可扩展性差	规则库越大，规则之间的冲突越难管理

💡 与当代 Agent 的联系：符号主义的"规则+推理"思路并未消亡。在今天的 LLM Agent 中，系统提示词（System Prompt） 其实就是一种软性"规则"，而工具的参数约束则是硬性规则。区别在于 LLM 用统计学习取代了手工编码的逻辑推理。

第二阶段：心智社会与分布式智能（1980s—1990s）

明斯基的"心智社会"

1986 年，MIT 人工智能实验室的创始人之一 Marvin Minsky 出版了《心智社会（The Society of Mind）》[5]。他提出了一个革命性的观点：

智能不是单一能力的体现，而是大量"不那么聪明"的小 Agent（Minsky 称之为 "agency"）协作的结果。

这个理论的核心思想是：

每个小 Agent 只负责一件简单的事（如"识别颜色"、"计算距离"）
复杂的智能行为由这些小 Agent 的层级协作涌现出来
不同的小 Agent 之间会竞争和合作

“心智社会”的重点不在于某个复杂类如何实现，而在于：智能可以由许多能力有限的小模块协作涌现出来。

小 Agent	擅长的事	协作价值
语言理解者	解析用户意图	把自然语言转成任务目标
规划者	拆解步骤	决定先做什么、后做什么
执行者	调用工具	把计划落实到外部动作
评估者	检查结果	判断是否需要重试或修正

现代多 Agent 系统仍然沿用这一思想：单个模块不必全能，只要接口清晰、反馈闭环可靠，整体就能表现出复杂智能。

BDI 架构

1990 年代，Rao 和 Georgeff 提出了 BDI（Belief-Desire-Intention）架构 [6]，成为理性 Agent 的标准理论框架：

Belief（信念）：Agent 对世界的认知（"我认为现在的交通状况很拥堵"）
Desire（愿望）：Agent 想要达成的目标（"我想在 30 分钟内到达公司"）
Intention（意图）：Agent 决定采取的行动计划（"我选择坐地铁而不是开车"）

BDI 架构可以理解为三个层次：

层次	含义	在现代 Agent 中的对应物
Belief（信念）	Agent 当前认为世界是什么样	观察结果、上下文、记忆
Desire（愿望）	Agent 想达成什么目标	用户任务、系统目标、奖励信号
Intention（意图）	Agent 当前承诺执行的计划	任务分解、工具调用序列

它提供了一种非常直观的 Agent 心智模型：先看见世界，再确定目标，最后选择并坚持一条行动路径。

💡 BDI 与 ReAct 的联系：如果你对比 BDI 架构和 ReAct 框架 [7]，会发现惊人的相似性——ReAct 中的 Thought 对应 BDI 的 Belief + 推理过程，Action 对应 Intention 的执行，Observation 对应 Belief 的更新。ReAct 本质上是用 LLM 实现了 BDI 架构中的"审慎推理"过程。

第三阶段：联结主义与深度学习（1990s—2020s）

从统计学习到神经网络

1990 年代后期，随着计算能力的提升和数据量的增长，联结主义（Connectionism） 逐渐占据主流。其核心思想是：智能可以通过大量简单计算单元（神经元）的连接和学习来涌现。

关键里程碑：

1997 年 Deep Blue：IBM 的国际象棋程序击败世界冠军卡斯帕罗夫，但本质仍是搜索+启发式算法
2012 年 AlexNet [8]：深度卷积神经网络在 ImageNet 竞赛中取得突破性成绩，开启深度学习革命
2016 年 AlphaGo [9]：DeepMind 的围棋程序击败李世石，将深度强化学习推向大众视野。AlphaGo 可以被视为一个复杂的"游戏 Agent"——它能感知棋盘状态、推理最优走法、并执行落子动作

强化学习 Agent

深度强化学习（Deep RL）为 Agent 领域带来了一套系统的数学框架。Agent 被建模为在环境中采取行动以最大化累计奖励的实体 [10]：

强化学习 Agent 的交互循环可以概括为：

Agent 观察环境状态。
根据策略选择一个动作。
环境返回新状态和奖励。
Agent 根据奖励更新策略。
重复以上步骤，直到任务结束。

LLM Agent 虽然通常不在每次运行时更新模型权重，但仍然继承了这个闭环思想：把工具返回、错误信息和用户反馈作为“环境奖励”，再通过上下文记忆影响下一步决策。

💡 RL 到 LLM Agent 的传承：强化学习的 Agent 循环（State→Action→Reward→NewState）直接映射到今天 LLM Agent 的工作循环（Observation→Thought→Action→Result）。唯一的区别是：RL Agent 的策略由数值化的神经网络驱动，而 LLM Agent 的策略由自然语言推理驱动。

Attention Is All You Need

2017 年，Google 的研究团队发表了具有里程碑意义的 Transformer 论文 [11]，提出了完全基于注意力机制的序列到序列模型。这篇论文直接催生了：

GPT 系列（OpenAI）：生成式预训练 + 指令微调
BERT（Google）：双向编码器，在理解任务上取得突破
T5、PaLM、LLaMA 等后续模型

Transformer 架构使得模型规模可以高效地扩展到数千亿参数，为 LLM 时代的到来奠定了技术基础。

第四阶段：LLM 驱动的智能体（2023—至今）

从语言模型到通用智能体

2022-2023 年，以 ChatGPT/GPT-4 为代表的大语言模型证明了一个关键假设：足够大的语言模型能够涌现出推理、规划、工具使用等高层认知能力 [12]。这使得"Agent"的实现方式发生了根本性转变：

维度	传统 Agent	LLM 驱动的 Agent
决策引擎	规则/搜索/RL 策略网络	大语言模型
知识来源	手动编码的知识库	预训练中习得的世界知识
交互方式	结构化输入/输出	自然语言
泛化能力	仅限训练域	跨领域泛化
开发成本	需要大量领域工程	Prompt + Tool 即可构建

标志性里程碑

2023 年：概念验证阶段

ReAct [7]：将推理和行动统一到一个 LLM 交互循环中，成为 Agent 的基础范式
AutoGPT（2023.3）：第一个引起全球关注的自主 Agent 项目，证明 LLM 可以自主规划和执行复杂任务
Generative Agents [13]（2023.4）：Stanford 的"AI 小镇"实验，25 个 Agent 在虚拟小镇中自主生活、社交和记忆，展示了 Agent 的社会行为涌现
Voyager [14]（2023.5）：NVIDIA 的 Minecraft Agent，能自主探索、学习技能并编写代码，展示了终身学习能力

2024 年：工程化阶段

Devin（2024.3）：Cognition AI 推出的首个"AI 软件工程师"，在 SWE-bench 上取得突破
SWE-Agent [15]（2024.6）：Princeton 的开源代码 Agent，系统性地设计了 Agent-Computer Interface (ACI)
MCP 协议（2024.11）：Anthropic 发布 Model Context Protocol，标准化工具集成
A2A 协议（2025.4）：Google 发布 Agent-to-Agent Protocol，标准化 Agent 间通信

2025 年：规模化应用阶段

Claude Code / Codex CLI：Agent 进入开发者日常工作流
OpenAI Agents SDK：官方 Agent 开发框架
DeepSWE：纯 RL 训练的开源代码 Agent，在 SWE-bench Verified 上达到 59% SOTA
Anthropic 发布 Building Effective Agents 指南 [16]，强调"简单组合优于复杂框架"
OpenAI 发布 A Practical Guide to Building Agents [17]，提供完整的工程化最佳实践

当代 Agent 的三大范式

经过几年的快速发展，LLM 驱动的 Agent 形成了三大主要范式：

当代 Agent 三大范式

发展脉络总结

整个智能体发展史可以用一条清晰的主线串联：

从"写规则"到"学规则"，再到"用语言替代规则"——Agent 的能力来源在不断抽象化和通用化。

时期	范式	Agent 能力来源	代表
1950s-1980s	符号主义	人工编写的逻辑规则	MYCIN, SHRDLU, STRIPS
1980s-1990s	分布式智能	多 Agent 协作涌现	BDI 架构, 心智社会
1990s-2020s	联结主义	数据驱动的统计学习	AlphaGo, DQN
2023-至今	LLM 驱动	预训练知识 + 自然语言推理	GPT-4 Agent, Claude Agent

小结

Agent 的概念贯穿了 AI 70 余年的发展史，远比 LLM 时代更早
符号主义奠定了"规则+推理"的基础，BDI 架构定义了理性 Agent 的理论框架
深度学习和强化学习提供了数据驱动的学习能力
LLM 的出现实现了"质变"：Agent 首次获得了跨领域的通用推理和规划能力
理解历史有助于我们更好地设计和构建当代 Agent 系统

🤔 思考练习

MYCIN 的 600 条规则和今天 Agent 的 System Prompt，本质区别在哪里？
明斯基的"心智社会"理论如何启发了今天的多 Agent 框架设计？
从 STRIPS 到 ReAct，Agent 的"规划"能力经历了怎样的演变？
你认为下一个阶段的 Agent 会是什么样的？

参考文献

[1] TURING A M. Computing machinery and intelligence[J]. Mind, 1950, 59(236): 433-460.

[2] WINOGRAD T. Understanding Natural Language[M]. New York: Academic Press, 1972.

[3] SHORTLIFFE E H, BUCHANAN B G. A model of inexact reasoning in medicine[J]. Mathematical Biosciences, 1975, 23(3-4): 351-379.

[4] FIKES R E, NILSSON N J. STRIPS: A new approach to the application of theorem proving to problem solving[J]. Artificial Intelligence, 1971, 2(3-4): 189-208.

[5] MINSKY M. The Society of Mind[M]. New York: Simon & Schuster, 1986.

[6] RAO A S, GEORGEFF M P. BDI agents: From theory to practice[C]//Proceedings of the First International Conference on Multi-Agent Systems (ICMAS). 1995: 312-319.

[7] YAO S, ZHAO J, YU D, et al. ReAct: Synergizing reasoning and acting in language models[C]//ICLR. 2023.

[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//NeurIPS. 2012: 1097-1105.

[9] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

[10] SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. 2nd ed. Cambridge: MIT Press, 2018.

[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//NeurIPS. 2017: 5998-6008.

[12] WEI J, TAY Y, BOMMASANI R, et al. Emergent abilities of large language models[J]. Transactions on Machine Learning Research, 2022.

[13] PARK J S, O'BRIEN J C, CAI C J, et al. Generative agents: Interactive simulacra of human behavior[C]//UIST. 2023.

[14] WANG G, XIE Y, JIANG Y, et al. Voyager: An open-ended embodied agent with large language models[R]. arXiv preprint arXiv:2305.16291, 2023.

[15] YANG J, JIMENEZ C E, WETTIG A, et al. SWE-agent: Agent-computer interfaces enable automated software engineering[R]. arXiv preprint arXiv:2405.15793, 2024.

[16] ANTHROPIC. Building effective agents[EB/OL]. 2024. https://www.anthropic.com/engineering/building-effective-agents.

[17] OPENAI. A practical guide to building agents[R]. 2025. https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf.

📚 第一章总结

恭喜你完成了第一章的学习！🎉 让我们回顾一下学到的核心概念：

第一章核心知识图谱

节次	核心收获
1.1 演进历程	AI 交互经历了规则→意图→LLM→Agent 四代演进，Agent 的本质飞跃是"从说到做"
1.2 核心概念	Agent = LLM + Memory + Planning + Tools，五大核心特征：自主性、感知、推理、行动、学习
1.3 架构循环	感知-思考-行动（OTA）闭环，FSM 状态机调度，四层护栏防止循环崩溃
1.4 与传统程序的区别	传统程序是静态 DAG，Agent 是动态概率路由；各有适用场景，不要为了 Agent 而 Agent
1.5 应用场景	编程、数据分析、教育、办公、电商、科研……几乎覆盖所有认知密集型场景
1.6 发展史	从符号主义到 BDI 到深度 RL 再到 LLM，Agent 能力来源不断抽象化和通用化

下一章：第2章大语言模型基础

Keyboard shortcuts

从零开始学 Agent