Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

4.6 论文解读:记忆系统前沿进展

📖 "记忆不只是存储,更是理解和推理的基础。"
Agent 记忆系统的研究正在快速发展,以下是最有影响力的几项工作。


Generative Agents:虚拟小镇中的记忆里程碑

论文Generative Agents: Interactive Simulacra of Human Behavior
作者:Park et al., Stanford University & Google Research
发表:2023 | arXiv:2304.03442

核心问题

如何让 AI Agent 像人类一样拥有丰富的内心世界——记住过去的经历、反思这些经历的意义、并据此制定未来的计划?

实验设计

研究者构建了一个名为 Smallville 的虚拟小镇,25 个 AI 居民(Generative Agents)在其中自主生活。每个居民有自己的身份背景(名字、职业、人际关系),并在小镇中自由活动——去咖啡店、上班、与其他居民交谈、参加活动。

令人惊叹的是,这些 Agent 展现出了许多涌现行为

  • 一个 Agent 计划举办情人节派对,自发地邀请其他 Agent
  • Agent 之间形成了友谊和社交圈
  • Agent 会基于过去的互动调整对其他 Agent 的态度

记忆架构(核心贡献)

Generative Agents 的记忆系统是其最重要的技术创新,包含三个层次:

Generative Agents 三层记忆架构

对 Agent 开发的启示

  1. "观察-反思-检索"框架是设计 Agent 记忆系统的黄金范式。大多数后续研究都借鉴了这一框架
  2. 重要性评分的思想——不是所有信息都值得记忆,需要有选择性
  3. 多维度检索优于单维度检索(纯时间序列或纯语义相似度都不够)
  4. 反思机制让 Agent 能从具体经历中提炼出抽象知识——这是"智能"的关键标志

MemGPT:操作系统式的记忆管理

论文MemGPT: Towards LLMs as Operating Systems
作者:Packer et al., UC Berkeley
发表:2023 | arXiv:2310.08560

核心问题

LLM 的上下文窗口是有限的(即使 128K Token 也会耗尽)。当对话足够长或需要处理大量信息时,如何管理这个有限的"内存"?

核心类比:LLM = 计算机

MemGPT 最精妙的洞察是将 LLM 的上下文窗口类比为计算机的内存管理:

MemGPT 操作系统 ↔ LLM Agent 类比

方法原理

MemGPT 将上下文窗口分为两个区域:

  1. 主上下文(Main Context):类似 RAM,放当前最需要的信息(系统提示、近期对话、工作记忆)
  2. 外部存储(External Storage):类似硬盘,存放完整的对话历史、文档、知识等

关键机制:

  • 自我编辑函数:Agent 可以调用 core_memory_append()core_memory_replace() 等函数来主动管理自己的记忆
  • 自动换入换出:当 Agent 需要的信息不在主上下文中时,系统自动从外部存储中检索并"换入"
  • 暂停与恢复:Agent 可以暂停当前对话,去外部存储中搜索信息,然后恢复

关键发现

  1. 理论上无限的记忆:通过分层存储,LLM 可以突破上下文窗口的限制
  2. 主动记忆管理:Agent 自己决定哪些信息值得保留在"工作记忆"中
  3. 多会话连续性:跨会话的信息可以通过外部存储持续保存

对 Agent 开发的启示

MemGPT 的架构思想在今天的 Agent 开发中非常实用:

  • 分层记忆设计:不要把所有信息都塞进 Prompt,而是分层管理
  • Agent 自管理记忆:给 Agent 提供记忆管理工具(如本书 4.5 节的实战项目)
  • 参考 mem0 等开源方案mem0 是 MemGPT 理念的开源实现

MemoryBank:遗忘曲线启发的记忆管理

论文MemoryBank: Enhancing Large Language Models with Long-Term Memory
作者:Zhong et al.
发表:2023 | arXiv:2305.10250

核心问题

现有的记忆系统要么"全部记住"(存储爆炸),要么"只记最新"(遗忘重要信息)。如何模拟人类真实的记忆行为——重要的、经常回忆的记忆被巩固,不重要的、不常回忆的记忆逐渐淡化?

方法原理

MemoryBank 的核心创新是引入了艾宾浩斯遗忘曲线(Ebbinghaus Forgetting Curve)

记忆强度 = 初始强度 × e^(-t/S)

  • t = 自上次访问以来的时间
  • S = 记忆稳定性(取决于重要性和回顾次数)

实际效果:经常被访问的记忆 → S 增大 → 衰减更慢 → 被"巩固";很久不访问的记忆 → 强度不断衰减 → 最终被“遗忘”

记忆操作

MemoryBank 支持三种核心操作:

  1. 记忆写入:新信息带初始强度存入
  2. 记忆回忆:检索时更新访问时间,增加稳定性
  3. 记忆遗忘:定期扫描,强度低于阈值的记忆被移至"归档区"

对 Agent 开发的启示

  • 自然的信息管理:比起手动设置"保留最近 N 条",遗忘曲线更智能
  • 用户画像随时间演进:用户的偏好可能会变化,旧偏好自然衰减
  • 存储效率:自动淘汰不再需要的信息,控制存储成本

CoALA:Agent 认知架构的统一框架

论文Cognitive Architectures for Language Agents (CoALA)
作者:Sumers et al.
发表:2023 | arXiv:2309.02427

核心问题

Agent 的记忆系统、推理系统、行动系统之间是什么关系?是否存在一个统一的认知架构来组织这些组件?

CoALA 框架

CoALA 借鉴了认知科学中的认知架构理论(如 ACT-R、SOAR),提出了一个适用于 LLM Agent 的统一框架:

CoALA 认知架构

核心贡献

  1. 统一分类:将现有的 Agent 系统按认知架构的组件进行分类和比较
  2. 记忆三分法:工作记忆 / 情景记忆 / 语义记忆 的划分比传统的"短期/长期"划分更精细
  3. 设计指导:为 Agent 开发者提供了一个"清单"——在设计 Agent 时需要考虑哪些认知组件

对 Agent 开发的启示

CoALA 框架帮助我们更系统地思考 Agent 设计:

  • 情景记忆 ≠ 语义记忆:前者存储"我经历了什么",后者存储"我知道什么"。两者的检索策略不同
  • 工作记忆是推理的基础:复杂推理需要 Scratchpad(详见 4.4 节)
  • 学习循环:Agent 不仅要使用记忆,还要从经验中学习并更新记忆


HippoRAG:受海马体启发的长时记忆

论文HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models
作者:Gutiérrez et al., 俄亥俄州立大学 NLP Group
发表:2024 | NeurIPS 2024 | arXiv:2405.14831

核心问题

人类大脑的海马体能够高效地整合新信息并与已有知识关联,而现有的 RAG 系统只是简单地"检索最相似的片段"——缺乏对知识之间关联关系的建模。

方法原理

HippoRAG 模拟了海马体的记忆索引理论(Complementary Learning Systems):

传统 RAG:文档 → 分块 → 向量化 → 检索最相似片段 → 生成回答(问题:片段之间没有关联,无法跨文档推理)

HippoRAG

  • 离线索引:文档 → LLM 提取知识三元组 → 构建知识图谱
  • 在线检索:查询 → 提取实体 → 通过个性化 PageRank 沿图扩展 → 定位最相关文档片段 → 生成回答

关键发现

  1. 知识图谱作为索引:比纯向量检索更擅长处理需要跨文档关联推理的问题
  2. 持续学习:新知识可以增量添加到图中,而不需要重新索引所有文档
  3. 在多跳问答任务上显著优于标准 RAG:在 MuSiQue 等基准上提升 20%+

对 Agent 开发的启示

HippoRAG 为 Agent 的长期记忆提供了一个新范式——用知识图谱作为记忆的索引层,向量数据库作为原始内容的存储层,两者协作实现高质量的记忆检索。这与 CoALA 框架中"语义记忆"的概念高度吻合。


Zep:时序知识图谱驱动的 Agent 记忆

论文Zep: A Temporal Knowledge Graph Architecture for Agent Memory
作者:Rasmussen et al.
发表:2025 | arXiv:2501.13956

核心问题

现有的 Agent 记忆系统大多忽略了时间维度——信息何时被记录、何时过期、不同时间点的信息如何演变。但在实际应用中,时间信息至关重要:

用户偏好的演变:2025年1月"用户喜欢用 Python" → 6月"用户开始转向 Rust" → 12月"用户现在主要用 Rust"

没有时间建模 → Agent 不知道该推荐哪种语言;有时间建模 → Agent 知道用户最新偏好是 Rust

方法原理

Zep 将 Agent 的记忆组织为时序知识图谱(Temporal Knowledge Graph)

核心数据结构(实体, 关系, 实体, 时间戳, 有效期)

例如:

  • (用户A, 偏好语言, Python, 2025-01, 2025-05)
  • (用户A, 偏好语言, Rust, 2025-06, 当前)

检索时同时考虑:语义相关性(图结构遍历)+ 时间相关性(优先返回最新、仍有效的记忆)+ 情景上下文(关联同一时期的其他记忆)

对 Agent 开发的启示

  • 时间感知是长期记忆的必要条件:特别是在个人助手、客户服务等场景中
  • 知识图谱是记忆组织的理想结构:比纯向量列表更能表达实体间的复杂关系
  • Zep 已开源并提供 Python SDK,可以直接集成到 LangChain / LangGraph 项目中

论文对比与发展脉络

维度Generative AgentsMemGPTMemoryBankCoALAHippoRAGZep
年份202320232023202320242025
核心创新观察-反思-检索框架OS 式分层存储遗忘曲线记忆管理统一认知架构海马体索引理论时序知识图谱
记忆类型记忆流 + 反思主上下文 + 外部存储遗忘曲线驱动工作/情景/语义知识图谱索引时序图 + 情景
特色反思机制自我编辑内存自然记忆衰减理论框架跨文档关联时间感知
适用场景社会模拟长对话用户画像系统设计知识密集任务个人助理

发展脉络

Generative Agents(建立了记忆系统的基本范式)→ MemGPT(解决"上下文窗口有限"的工程问题)→ MemoryBank(引入认知科学中的遗忘机制)→ CoALA(提供统一的理论框架)→ HippoRAG(用知识图谱作为记忆索引层,NeurIPS 2024)→ Zep + mem0(时序图谱 + 工业级记忆方案,2025)

💡 前沿趋势(2025-2026):记忆系统正在从"被动存储"向"主动组织"演进,两大关键趋势:① 知识图谱成为记忆的核心:HippoRAG、Zep、mem0 都采用了图结构来组织记忆,相比纯向量存储能更好地表达实体关系和支持多跳推理;② 时间感知记忆:Agent 需要理解"什么时候知道了什么"、"哪些信息已过时",Zep 的时序知识图谱和 MemoryBank 的遗忘曲线代表了两种互补的时间建模方案。mem0 作为开源记忆层方案已获得广泛采用,支持自动记忆提取、冲突检测和图结构记忆。supermemory 则代表了另一种工业级路线——它将 RAG 与 Memory 融合为统一的上下文引擎,支持自动事实提取、用户画像维护、多模态文档处理,并在 LongMemEval、LoCoMo、ConvoMem 三大基准上均排名第一,同时提供 MCP 服务和主流框架集成(LangChain、LangGraph、Vercel AI SDK 等)。


📰 最新论文速递

🗓️ 本节由每日自动更新任务维护,最近更新:2026 年 6 月 24 日

ProactAgent:经验驱动的终身 Agent 主动检索框架

发表:2026 年 4 月 22 日 | arXiv:2604.20572

核心贡献:提出 ProactAgent 框架,将 Agent 的记忆检索从「被动触发」升级为「主动决策」。框架引入 ProactRL(主动强化学习检索),把检索行为建模为一种显式策略动作,通过配对分支过程奖励学习「何时检索」和「检索什么」——只有检索能带来更好任务结果时才触发,避免无效检索开销。经验库按类型组织为事实记忆、情节记忆和行为技能三个仓库,在 SciWorld(73.50%)和 AlfWorld(71.28%)上显著提升了终身 Agent 的成功率。

与本章关系:与本章 4.2 节「记忆类型」(事实/情节/技能三分法)和 4.4 节「记忆检索」高度对应,是「主动式记忆检索」方向的最新实践,为检索时机决策提供了 RL 范式的解决方案。


FSFM:仿生的 Agent 记忆选择性遗忘框架

发表:2026 年 4 月 22 日 | arXiv:2604.20300

核心贡献:受人类海马体索引/巩固理论和艾宾浩斯遗忘曲线启发,提出面向 LLM Agent 的选择性遗忘框架 FSFM。将遗忘机制分为四类:被动衰减型、主动删除型、安全触发型、自适应强化型,针对资源受限环境证明「精心设计的遗忘机制和记忆保留同等重要」。实验结果:访问效率提升 8.49%、内容质量信噪比提升 29.2%、安全风险消除率 100%(主动删除恶意/隐私敏感记忆)。

与本章关系:填补了本章记忆管理讨论中「何时/如何删除过期记忆」的空白,与 MemoryBank 的遗忘曲线思路互补,为记忆安全治理提供了系统性的分类框架。


AI Agent 记忆系统现状 2026:10 种方法基准测评

发表:2026 年 4 月 1 日 | arXiv:2504.19413(ECAI 2025)

核心贡献:mem0 团队在 LOCOMO 基准上对 10 种主流 Agent 记忆方案(Full-context、Mem0、Mem0g 图增强、OpenAI Memory、RAG、MemGPT 等)进行横向测评,涵盖准确率、延迟、Token 消耗三个维度。关键结论:全上下文注入精度最高(72.9%)但 P95 延迟 17 秒,不可用于生产;Mem0 仅损失 6pp 精度,换来 91% 延迟下降和 90% Token 节省;图增强记忆(Mem0g)将精度差距压缩至 < 5pp 同时保持低延迟——是目前最优的生产就绪方案。此外报告揭示:记忆系统已从可选组件演进为 Agent 的一等架构组件,21 个框架、19 个向量数据库已完成集成。

与本章关系:为本章 4.2 节「记忆类型」和 4.4 节「记忆检索」提供了全球首份包含延迟和 Token 成本的横向基准数据,也是选型决策的实证依据。


Prism:面向多 Agent 开放式发现的进化记忆基底

发表:2026 年 4 月 8 日 | arXiv:2604.19795

核心贡献:提出 PRISM(概率检索 + 信息分层记忆)框架,将层次文件持久化存储、向量语义记忆、图结构关系记忆、多 Agent 进化搜索四大范式统一在单一决策论框架下。核心机制包括:① 熵门控分层路由——基于 Shannon 信息熵将记忆自动分配到技能/笔记/尝试三元枢纽;② 因果记忆图——追踪每条记忆的 Agent 贡献来源并支持干预溯源;③ 复制子衰减动力学——将记忆置信度建模为进化适应度,收敛至进化稳定记忆集(ESMS)。在 LOCOMO 基准上 LLM-as-a-Judge 得分 88.1,超越 Mem0 达 31.2%

与本章关系:直接对应本章 4.2 节「记忆类型」与 4.4 节「记忆检索」,是将向量记忆、图记忆与进化搜索融合为统一记忆架构的前沿尝试,也为本章末尾 mem0 vs supermemory 的选型对比提供了新的竞争参照系。


Omni-SimpleMem:自主研究驱动的终身多模态 Agent 记忆框架

发表:2026 年 4 月 1 日(v2:4 月 2 日)| arXiv:2604.01007

核心贡献:提出通过「自主研究管道」(无人工干预的自动化实验循环)来发现多模态 Agent 记忆框架的新范式。系统从 F1=0.117 的基线模型出发,自主执行约 50 次实验,自动诊断失败模式、提出架构改进、修复数据管道,最终在 LoCoMo 基准达到 F1=0.598(提升 411%),Mem-Gallery 基准达到 F1=0.797(提升 214%),实现两项 SOTA。关键发现:最有价值的改进来自 Bug 修复(+175%)和提示优化(+188%),远超所有超参数调整之和——传统 AutoML 完全无法发现这些改进。

与本章关系:直接对应本章「记忆系统设计」议题,是将自主研究(Auto-Research)方法首次应用于多模态记忆框架发现的前沿工作,为记忆系统架构探索提供了全自动化的新路径。


StructMem:面向长时行为的分层结构化记忆框架

发表:2026 年 4 月 23 日 | ACL 2026 | arXiv:2604.21748

核心贡献:针对 LLM Agent 长期对话记忆的两难困境——扁平记忆高效但缺乏关系建模、图结构记忆支持推理但构建代价昂贵——提出 StructMem 结构化分层记忆框架,通过事件级绑定保留、跨事件关系归纳、双视角时序锚定与周期性语义整合,在 LoCoMo 基准上同时提升时序推理和多跳问答性能,并显著减少 token 用量、API 调用次数与运行时间。

与本章关系:对应本章 4.2「记忆类型」与 4.4「记忆检索」核心知识点,为实现兼顾效率与结构化推理的 Agent 长期记忆提供了经 ACL 2026 认可的完整方案。


AEL:通过经验演化学习提升开放环境中的 Agent 自我改进

发表:2026 年 4 月 23 日 | arXiv:2604.21725

核心贡献:提出 AEL(Agent Evolving Learning)双时间尺度框架,解决 Agent "不知如何利用已记住的经验"这一瓶颈:快时间尺度用 Thompson Sampling 老虎机学习每次应用哪种记忆检索策略;慢时间尺度由 LLM 驱动的反思诊断失败模式并将因果洞见注入决策提示。消融实验揭示"少即是多"规律:记忆+反思带来 58% 累积提升,但每增加一个机制(规划演化、技能提取等)性能均下降。

与本章关系:直接呼应本章 4.4「记忆检索策略」议题,深刻揭示了记忆系统的核心瓶颈不在于存什么而在于如何使用,为 Agent 记忆利用策略的设计提供了清晰的研究方向。


Memanto:基于信息论检索的类型化语义记忆层

发表:2026 年 4 月 23 日 | arXiv:2604.22085

核心贡献:提出 Memanto,一种面向 Agent 的通用记忆层,颠覆了"高保真记忆必须依赖知识图谱"的主流假设。Memanto 采用 13 个预定义记忆类别的类型化语义模式,结合自动冲突解决和时间版本控制,并依托 Moorcheh 信息论搜索引擎(零索引、亚 90 毫秒确定性检索、零入库延迟、单次查询),在 LongMemEval 和 LoCoMo 基准上分别达到 89.8% 和 87.1% 的最优准确率,以少 250 倍的可训练参数全面超越混合图谱和向量数据库方案。

与本章关系:与本章 4.3 节「长期记忆」和 4.4 节「记忆检索」直接对应,是当前在 LongMemEval 基准上的最优方案,展示了无图结构记忆架构的可行性。


Oblivion:衰减驱动激活的自适应 Agent 记忆控制

发表:2026 年 4 月 1 日 | arXiv:2604.00131

核心贡献:受人类记忆遗忘与重激活机制启发,提出 Oblivion 框架,为 Agent 记忆引入动态衰减机制:每条记忆具有随时间降低的激活值,仅高于阈值的记忆才可被检索;但经上下文强化或显式访问的记忆可被重新激活。这一"有序遗忘"策略使 Agent 能自动过滤陈旧低质记忆,在任务相关性排序上超越传统全量存储方案,同时将上下文占用减少 40% 以上。代码已开源于 GitHub。

与本章关系:与本章 4.3 节「遗忘机制」与 FSFM 论文形成互补,从激活值建模角度为记忆管理提供了另一种仿生方案。


OCR-Memory:用视觉编码突破 Agent 长程记忆的上下文瓶颈

发表:2026 年 4 月 29 日 | ACL 2026 主会议 | arXiv:2604.26622

核心贡献:现有 Agent 记忆系统受限于文本 token 预算,无法经济地存储长程轨迹。本文提出 OCR-Memory(Optical Context Retrieval Memory),将历史轨迹渲染为附有唯一视觉标识符的图像,利用视觉模态作为高密度表示突破文本 token 限制;检索时采用"定位-转录"范式,通过视觉锚点选择相关区域后直接恢复逐字文本,避免自由式生成并减少幻觉。在严格上下文约束下的长程 Agent 基准测试上取得一致性增益,已被 ACL 2026 主会议接收。

与本章关系:直接扩展了本章 4.2 节「外部记忆存储」的技术边界,为超长历史轨迹的高保真检索提供了视觉模态新路径。


MEMTIER:面向长期自主 AI Agent 的分层记忆架构与检索瓶颈分析

发表:2026 年 5 月 5 日 | arXiv:2605.03675

核心贡献:发现长期运行的自主 Agent 在 72 小时内工具执行成功率下降 14 个百分点,根因在于扁平记忆系统的四类叠加失效模式。MEMTIER 引入三层记忆架构(情节存储层、语义整合层、异步守护进程)与五信号加权检索引擎,并通过基于 PPO 的策略框架动态调整检索权重。在 LongMemEval-S 基准上精度从 5% 提升至 38.2%(+33 个百分点),可在消费级 GPU(6GB 显存)上高效运行。

与本章关系:与本章 4.3 节「长期记忆架构」和 4.4 节「记忆检索」直接对应,是专门针对长时运行 Agent 记忆衰减问题的系统性解决方案,为生产部署中的记忆持久化提供了实证基础。


HAGE:强化学习驱动加权图演化的 Agent 记忆动态检索

发表:2026 年 5 月 11 日 | arXiv:2605.09942

核心贡献:提出 HAGE 框架,将 Agent 记忆检索从静态向量查询升级为动态的、查询条件化的图遍历。系统构建加权多关系记忆图,每条边关联可训练的关系特征向量,并通过强化学习联合优化路由行为与边权表示,实现跨对话的记忆图持续演化。在长视野推理基准上,相比 RAG 基线在准确性与检索效率上均显著提升。

与本章关系:直接扩展本章 4.2 节「外部记忆存储」与 4.4 节「记忆检索」知识点,是将 RL 引入记忆图演化的最新进展,与 MEMTIER 的分层架构形成互补——前者关注图结构演化,后者关注层次化组织。


返回:第4章 记忆系统(Memory)

Mem-W:统一隐空间原生记忆 GUI Agent

发表:2026 年 5 月 13 日 | arXiv:2605.09317

核心贡献:现有 GUI Agent 记忆系统依赖手工设计的多层分类(工作记忆/程序记忆/情节记忆),结构固化且与推理空间存在表示错配。Mem-W 提出统一隐空间原生记忆:用可学习的轨迹压缩器将历史轨迹和当前情节前缀均投影到同一连续隐空间,通过自蒸馏和结果感知监督端到端训练,无需任何手工记忆分类。在四个 web/移动导航基准上较主流 GUI Agent 最高提升 +30.0%,且随着记忆库增长呈现良好的扩展性。

与本章关系:对应本章 4.2 节"语义记忆与情节记忆",展示了将两类记忆融合到单一隐空间的端到端学习范式,是记忆系统设计的前沿探索。


MementoGUI:面向长程 GUI Agent 的多模态记忆控制

发表:2026 年 5 月 18 日 | arXiv:2605.18652

核心贡献:本文针对 GUI Agent 在长程任务中难以维持界面状态的问题,提出 MementoGUI 记忆控制框架。其核心 MementoCore 能在线选择、压缩和检索任务相关界面事件,将文本摘要与 ROI 级视觉证据保存在工作记忆中,并通过情景记忆检索可复用的历史轨迹;该设计可作为即插即用模块增强现有 GUI Agent,无需微调底层骨干模型。

与本章关系:直接对应本章「工作记忆」「情景记忆」和「多模态记忆」知识点,展示了记忆系统如何从纯文本向界面视觉证据和长期操作轨迹扩展。


MemIR:类型化记忆中间表示——消除长期 Agent 溯源角色崩溃

发表:2026 年 5 月 25 日 | arXiv:2605.25869

核心贡献:现有 Agent 的长期记忆将历史交互存储为无结构扁平文本,导致"溯源角色崩溃"——Agent 无法区分原始证据、检索线索和有证可循的真实断言,出现来源监控错误。MemIR 提出类型化记忆中间表示:将记忆写成结构化的原子单元,严格分离原始证据原子、检索提示原子和断言原子,且事实授权仅限于有支撑的断言原子。通过多路由原子投影和溯源域利用,将异构检索结果转化为以断言为中心的候选束。在 LoCoMo 和 BEAM-100K 上,特别在需要溯源追踪、时序定位和碎片化证据整合的任务中,MemIR 一致超越现有记忆基线。

与本章关系:对应本章 4.3 节"记忆的组织与检索",是对长期记忆结构化存储问题的深层诊断与修复,揭示了无结构记忆导致的认知失效模式及其类型化解决方案。


SE-GA:记忆增强自进化 GUI Agent 框架

发表:2026 年 5 月 16 日 | ICML 2026 | arXiv:2605.16883

核心贡献:天津大学 & 上海交通大学团队提出 SE-GA(Self-Evolving GUI Agent),通过两项机制解决 GUI Agent "记不住、学不会"的双重瓶颈:推理时记忆扩展 TTME 动态检索情节、语义和经验三类记忆提供显著上下文;训练管线 MASE 将 TTME 收集的数据用于稳定和增强基础策略,形成记忆→训练的持续自进化闭环。在 ScreenSpot 上达到 89.0% 成功率、AndroidControl-High 达到 75.8%,AndroidWorld 基准上的表现超越所有已知基线,已被 ICML 2026 接收。

与本章关系:直接对应本章「情节记忆」「语义记忆」和「记忆驱动的在线学习」知识点,是将三类记忆统一组织、与训练管线双向耦合的最新 ICML 旗舰成果,展示了记忆系统如何从被动检索升级为主动自进化的核心驱动力。


TOKI:LLM Agent 持久化记忆中矛盾解决的双时间算子代数

发表:2026 年 6 月 4 日 | arXiv:2606.06240

核心贡献:LLM Agent 的持久化记忆是写密集型系统——每次信念更新产生版本化写入,新声明可能与旧声明相矛盾。生产系统常用的四种矛盾解决启发式(最后写入获胜、证据加权合并、等待确认、按规则策略)均未明确其隔离级别。TOKI 将矛盾解决形式化为写时并发控制,通过双时间(bitemporal)操作符族提供严格的隔离前置条件,并用出处注释将失败事实保留在审计行中。理论证明键控日志记录是重放一致性的必要条件,实验表明审计行防御将 LoCoMo 基准提升 0.86 分,TOKI 是唯一同时排除重放不一致、信念漂移偏差和审计擦除三类异常的方案。

与本章关系:对应本章「记忆的组织与检索」和「长期记忆一致性」知识点,从并发控制角度为持久化记忆的矛盾解决提供了首个完整的形式化理论框架。


MRAgent:记忆是重建,不是检索——LLM Agent 的图记忆框架

发表:2026 年 6 月 4 日 | ICML 2026 | arXiv:2606.06036

核心贡献:当前记忆增强 Agent 依赖"先检索再推理"的静态管线,无法在推理过程中动态调整记忆访问路径。MRAgent 提出 Cue-Tag-Content 三层关联图结构,将细粒度触发点(Cue)、语义桥梁(Tag)和完整记忆条目(Content)组织为可多跳推理的图。其主动重建机制将 LLM 推理直接嵌入记忆访问过程,Agent 迭代探索并剪枝检索路径,基于累积证据动态决定哪些记忆相关,同时利用图结构约束扩展范围避免组合爆炸。在 LoCoMo 和 LongMemEval 上超越强基线高达 23%,同时降低 token 与运行时成本,已被 ICML 2026 接收。

与本章关系:对应本章「情节记忆」与「记忆的组织与检索」知识点,从范式层面挑战了现有"检索-推理"分离架构,是将 LLM 推理与记忆访问深度融合的最新 ICML 旗舰成果。


用户即代码:面向个性化 Agent 的可执行记忆架构

发表:2026 年 6 月 15 日 | arXiv:2606.16707

核心贡献:传统 Agent 记忆以"事实检索"为核心——存储文本或知识图谱条目,通过相似度匹配获取。User as Code(UaC)提出将用户记忆存储为可执行 Python 代码:用户状态以有类型的 Python 对象表示,规则以函数编码,从而把"表示用户"和"对用户推理"统一为解释器可运行的同一介质。两阶段管线:追加日志(永不丢弃事实)→ 周期性结构化为类型代码。在聚合类问题(如"去年出了几次国?")上检索型记忆崩溃(6–43%),而 UaC 接近满分(99%),因为答案只是对类型化状态的一行计算。UaC 还能在状态变更时主动触发安全关键提醒(如药物-过敏冲突),这是查询驱动型记忆无法做到的。

与本章关系:对应本章「结构化记忆」与「记忆的组织与检索」知识点,将记忆范式从"文本相似度检索"提升到"程序化状态计算",是记忆系统从"存事实"到"可执行推理"的重要范式跳跃。


Infini Memory:面向长期 LLM Agent 的可维护主题文档记忆

发表:2026 年 6 月 9 日 | arXiv:2606.10677

核心贡献:长期 LLM Agent 需要能跨会话追踪变化事实并提供相关证据的持久记忆。现有记忆系统将观测存储为孤立记录、摘要或索引片段,难以进行证据聚合、事实修订和记忆维护。Infini Memory 提出以主题结构化文档为单元的可维护文本记忆架构:每个主题文档作为语义单元,收集相关证据、保留元数据并随时间修订事实;新观测先暂存缓冲区,再周期性整合为连贯文本上下文;推理时通过 Agent 迭代工具调用逐步读取记忆而非一次性检索。在 MemoryAgentBench 上取得 64.7% 总分,消融研究表明主题结构化维护和迭代证据检查两者互补。

与本章关系:对应本章「长期记忆维护」与「情节记忆」知识点,提供了继"向量数据库检索"之后的第三种路线——主题文档迭代维护,解决了跨会话事实修订和证据聚合这两个长期记忆的核心工程难题。


RaMem:基于上下文复原的长期 Agentic 记忆框架

发表:2026 年 6 月 22 日 | arXiv:2606.22844

核心贡献:当记忆被压缩为可复用片段后,来自不同情境的记忆可能因实体或用户状态重合而显得同样"相关",这一现象被称为上下文坍塌(context collapse)——记忆失去了判断其是否适用于当前查询所需的外围情境。RaMem 提出四阶段框架:(1)证据锚定将每条记忆的原始情节条件(事件时间、提及时间、会话跨度、参与者)显式内嵌;(2)召回条件推断从查询中派生必要的证据条件;(3)有效性感知检索用条件优先筛选上下文相容记忆,同时保留内容相关记忆作为备选;(4)上下文保留合成在生成阶段维持记忆的结构化上下文。在长期记忆基准上,RaMem 相比强基线平均 F1 提升超过 10%

与本章关系:对应本章「记忆检索」与「情节记忆」知识点,直接解决了向量检索框架中的"相似不等于适用"问题,引入了情节锚定这一核心概念,是长期 Agent 记忆可靠性的最新系统性提升。