9.6 论文解读：技能系统前沿研究

本节解读与 Agent 技能系统相关的核心论文，涵盖技能学习、工具创造和技能生态三个方向。

Voyager：LLM 驱动的终身学习 Agent

论文：Voyager: An Open-Ended Embodied Agent with Large Language Models
作者：Wang et al., NVIDIA & Caltech
发表：2023 | arXiv:2305.16291

核心问题

在开放世界环境中，Agent 能否像人类一样持续探索、不断学习新技能，而不是只能完成预定义的任务？

方法原理

Voyager 在 Minecraft 游戏中构建了 Agent 技能学习的完整闭环：

Voyager 详细架构

关键发现

技能库是终身学习的关键：没有技能库的 Agent 在 50 次迭代后就停滞不前，有技能库的 Voyager 能持续进步
技能的时间可扩展性：早期学到的简单技能可以被后期的复杂任务复用，形成正向循环
自动课程 > 固定课程：GPT-4 生成的自适应课程比人类设计的固定课程效率高 4.2 倍
代码作为技能表示：用可执行代码表示技能，比自然语言描述更精确、更可靠

实验对比

指标	Voyager	ReAct	Reflexion	AutoGPT
独特物品获取数	63	41	43	22
技术树覆盖率	15.3/36	8.5/36	9.2/36	5.4/36
距离探索（方块数）	2,252	1,086	1,225	892

对 Agent 开发的启示

Voyager 证明了一个关键架构模式——技能库 + 自动课程 + 迭代改进可以让 Agent 实现终身学习。这个模式可以推广到任何 Agent 应用中：

客服 Agent 可以从每次成功的对话中提取"对话技能"
编程 Agent 可以从每次成功的代码修改中提取"编程技能"
研究 Agent 可以从每次成功的调研中提取"研究技能"

CRAFT：创建和检索专用工具集

论文：CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets
作者：Yuan et al., 北京大学
发表：2024 | ICLR 2024 | arXiv:2309.17428

核心问题

传统的 Agent 只能使用预定义的工具来解决问题。但如果遇到新类型的问题，没有现成工具怎么办？CRAFT 提出：让 LLM 自己创造工具。

方法原理

传统方法（直接解决）：问题 → LLM 直接生成代码解决 → 可能出错

CRAFT 方法（先造工具再解决）：

阶段1（创造工具）：LLM 分析问题模式 → 抽象出可复用的工具函数 → 用测试用例验证工具

阶段2（使用工具）：从工具库检索合适的工具 → 组合工具解决具体问题

关键洞察："抽象化"让 LLM 更少犯错——创造一个"求和"工具 + 调用它，比直接写一大段求和代码更可靠

CRAFT vs 直接代码生成

# 直接代码生成（容易出错）
def solve_directly(problem):
    """
    问题：计算以下矩阵的行列式
    [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
    """
    # LLM 直接写完整的行列式计算代码
    # 代码长，容易有 bug
    matrix = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
    det = (matrix[0][0] * (matrix[1][1] * matrix[2][2] - ...)
           - matrix[0][1] * (...))  # 容易写错！
    return det

# CRAFT 方法（先造工具再调用）
def craft_approach():
    # 阶段1：创造通用的行列式计算工具
    def determinant(matrix):
        """计算任意 n×n 矩阵的行列式"""
        n = len(matrix)
        if n == 1: return matrix[0][0]
        if n == 2: return matrix[0][0]*matrix[1][1] - matrix[0][1]*matrix[1][0]
        det = 0
        for j in range(n):
            minor = [row[:j] + row[j+1:] for row in matrix[1:]]
            det += ((-1)**j) * matrix[0][j] * determinant(minor)
        return det
    # 验证：determinant([[2,1],[1,2]]) == 3  ✅
    
    # 阶段2：调用工具解决具体问题
    result = determinant([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
    return result  # 更可靠

关键发现

"先抽象后使用"优于"直接解决"：CRAFT 在数学推理和视觉问答任务上显著优于直接代码生成
工具复用率高：约 60% 的新问题可以直接使用已创建的工具
工具组合能力：多个简单工具组合可以解决复杂问题
质量验证是关键：没有测试用例验证的工具，错误率高 3 倍

对 Agent 开发的启示

CRAFT 提供了一个重要的设计理念——Agent 不应该局限于使用预定义的工具，而应该能够按需创造新工具。在实际项目中：

当 Agent 反复遇到类似的数据处理需求时，可以自动创建一个专用工具
创建的工具经过验证后保存到工具库，下次直接复用
这与 Voyager 的技能库思想异曲同工，只是应用场景不同

Anthropic Skills 生态

项目：Anthropic Agent Skills
作者：Anthropic
发布：2025 | github.com/anthropics/skills

核心贡献

Anthropic 开源了一套完整的声明式技能框架，用 SKILL.md 文件定义 Agent 技能。这是工业界首次系统化地定义 Agent 技能的标准。

16 个示范技能覆盖的领域

类别	示范技能	用途
文档处理	文档分析、内容生成	处理各种格式的文档
创意设计	主题工厂、画布设计	生成品牌素材和设计方案
开发技术	代码审查、架构设计	辅助软件开发流程
企业应用	商务沟通、数据分析	日常办公自动化

对 Agent 开发的启示

Anthropic Skills 的最大贡献是降低了技能创建的门槛——你不需要写代码，只需要写一份结构化的 Markdown 文档，就能为 Agent 添加新技能。社区项目 add-skill 进一步提供了跨平台的技能安装工具，支持 Claude Code、Cursor、OpenCode 等主流 AI 编程工具。

论文对比与发展脉络

论文/项目	年份	技能类型	核心创新	适用场景
HuggingGPT/JARVIS	2023	模型路由	跨模型任务分发	多模态任务
Voyager	2023	代码技能	技能库 + 终身学习	具身智能/探索
Semantic Kernel	2023	Plugin	企业级技能封装	企业应用
CRAFT	2024	工具创造	创建 + 检索 + 验证	问题求解
Anthropic Skills	2025	声明式技能	SKILL.md 标准化	通用 Agent
A2A Agent Card	2025	技能声明	多 Agent 技能发现	多 Agent 协作

发展脉络：

技能系统演进

💡 前沿趋势（2025-2026）：Agent 技能系统正在经历从"手工定义"到"生态化"的转变。三大趋势：① 技能标准化：Anthropic 的 SKILL.md 和 Google 的 A2A Agent Card 正在成为技能描述的行业标准；② 技能市场化：add-skill CLI 等社区工具让技能可以像 npm 包一样安装和共享；③ 技能自进化：Voyager 和 CRAFT 展示了 Agent 自主学习和创造技能的可能性——未来的 Agent 将能够在工作中不断积累新技能，技能库持续增长。

返回：第9章 Skill System

下一章：第10章 Agentic-RL：智能体强化学习训练

📰 最新论文速递

🗓️ 本节由每日自动更新任务维护，最近更新：2026 年 6 月 24 日

MAGEO：从经验到技能——多 Agent 可复用策略学习框架

发表：2026 年 4 月 22 日 | arXiv:2604.19516

核心贡献：将生成引擎优化（GEO）问题重新表述为多 Agent 策略学习，提出 MAGEO 框架，逐步将验证过的编辑模式提炼为可复用的「引擎特定优化技能」。引入双分支评估协议和 DSV-CF 双轴指标，发布 MSME-GEO-Bench 多场景多引擎基准，在 ACL 2026 Findings 发表。核心思想：Agent 不止执行任务，而是将执行经验「固化」为可迁移的技能模块供后续任务复用。

与本章关系：直接体现本章「Agent 技能的自动创造与积累」主题，与 Voyager 的代码即技能思路互补——MAGEO 通过多 Agent 验证将策略经验自动转化为结构化技能，是技能自进化方向的最新实践。

EvoAgent：可演化的技能学习与多 Agent 委托框架

发表：2026 年 4 月 21 日 | arXiv:2604.20133

核心贡献：提出 EvoAgent，将技能建模为带触发机制和演化元数据的多文件结构化能力单元，通过用户反馈驱动的闭环流程实现技能的持续生成与优化。框架集成三阶段技能匹配策略和三层记忆架构，支持复杂任务的动态分解和长期能力积累。在真实外贸场景实验中，接入 EvoAgent 后 GPT-5.2 的专业性、准确性、实用性综合评分提升约 28%（LLM-as-Judge 五维评估）；迁移实验表明 Agent 性能不仅取决于底层模型能力，还取决于模型与 Agent 架构的协同度。

与本章关系：是本章「技能生命周期管理」的最新实践——EvoAgent 的触发机制对应技能发现、闭环反馈对应技能优化、三层记忆对应技能持久化，完整覆盖了从技能创建到演化的全生命周期。

Skill1：强化学习驱动的技能增强 Agent 统一演化框架

发表：2026 年 5 月 7 日 | arXiv:2605.06130

核心贡献：提出 Skill1 框架，通过单一策略同时优化技能选择、技能利用和技能蒸馏三个能力，使其朝向共同的任务结果目标协同演进。方法利用任务奖励信号的低频趋势指导技能选择、高频变化指导技能蒸馏，避免了传统方法中多组件之间的目标冲突。在 ALFWorld 和 WebShop 等基准上的实验验证了统一演化策略的优越性。

与本章关系：直接对应本章「技能库的动态更新与强化学习」主题，Skill1 将 RL 信号精细拆分以同时驱动技能选择和蒸馏，是 Voyager「代码即技能」思路在 RL 时代的最新延伸。

从历史到状态：LLM Agent 的常数上下文技能学习

发表：2026 年 5 月 6 日 | arXiv:2605.05413

核心贡献：提出常数上下文技能学习框架，通过轻量级任务模块将历史轨迹「固化」为可重用工作流，推理仅需当前观察和紧凑状态块，相比传统方法减少 2~7 倍的提示 token 消耗。利用确定性追踪器从任务进度生成状态块和对齐子目标奖励，同时支持监督微调和在线强化学习。在 ALFWorld、WebShop、SciWorld 等多个基准上，Qwen3-8B 模型达到 89.6%/76.8%/66.4% 的未见任务成功率。

与本章关系：与本章「技能的持久化存储与上下文压缩」主题高度相关，将技能学习与上下文工程结合，在本地模型上实现了接近云端大模型的技能复用能力。

HASP：可执行技能程序——让 Agent 技能从被动建议升级为主动干预

发表：2026 年 5 月 18 日 | arXiv:2605.17734

核心贡献：现有技能系统将经验编码为自然语言建议，但缺乏明确的触发条件和干预机制。HASP（Harnessing LLM Agents with Skill Programs）将技能升级为可执行的「程序函数」（PF），在 Agent 遇到高故障风险状态时自动激活并修正下一步动作。框架支持三种使用方式：推理时即插即用干预、训练后监督微调，以及通过验证-教师循环的自我演化。在网页搜索推理任务中，推理时 PF 相比 ReAct Agent 提升 25%，结合训练和演化可超过 Search-R1 达 30.4%。

与本章关系：对应本章「技能的动态触发与执行」知识点，将 Voyager 式文本技能进化为结构化、可验证的程序技能，是 Agent 技能系统从"记忆"到"行动"的重要范式升级。

将 Agentic 工作流编译入 LLM 权重：接近前沿质量而成本降低两个数量级

发表：2026 年 5 月 21 日 | arXiv:2605.22502

核心贡献：主流 Agent 框架（LangGraph、CrewAI 等合计超 29 万 GitHub Star）均采用外部编排器模式，消耗大量上下文窗口且依赖前沿大模型。本文提出"地下 Agent"（subterranean agent）方案：将 Agent 过程步骤直接蒸馏进小型微调模型权重，使其无需外部编排器即可独立完成复杂工作流（旅行预订 14 节点、保险理赔 55 节点）。在三个生产级流程上，编译后小模型能以百分之一的成本达到接近前沿模型的质量，同时保护专有流程隐私。

与本章关系：对应本章「技能内化与模型微调」知识点，揭示了将 Agent 技能从运行时技巧转为模型内生能力的可行路径，为轻量化技能部署提供了新方向。

MUSE-Autoskill：技能创建、记忆、管理与评估驱动的 Agent 自进化框架

发表：2026 年 5 月 26 日 | arXiv:2605.27366

核心贡献：现有技能创建方法将技能视为孤立的静态制品，既无记忆机制、又无自动测试与迭代，技能「用完即弃」。字节跳动 ByteBrain 团队提出 MUSE-Autoskill，定义统一的五阶段技能生命周期（创建→评估→精炼→记忆→管理）：每个技能均配备结构化 SKILL.md 接口定义、可执行脚本与单元测试，并通过沙箱验证后才注册入库；每个技能还维护一个 .memory.md 文件，记录跨任务使用经验；上下文管理采用 DAG 节点图和两级压缩机制防止 token 溢出。在 SkillsBench（51 个真实世界任务）上，自生成技能在 35 个任务上达到 87.94% 准确率，超过人类专家编写技能的 68.40%；将 MUSE-Autoskill 生成的技能迁移给其他 Agent（Hermes）后准确率提升 10.51 个百分点。

与本章关系：是本章「技能的自动创造、积累与进化」方向的最新旗帜性工作，与 Voyager 的代码即技能思路一脉相承，同时引入了技能生命周期管理与跨 Agent 技能迁移两大新维度，直接体现了书中技能系统走向「技能生态」的前沿趋势。

COLLEAGUE.SKILL：通过专家知识蒸馏实现自动化 AI 技能生成

发表：2026 年 5 月 29 日 | arXiv:2605.31264

核心贡献：上海人工智能实验室团队提出 COLLEAGUE.SKILL，将人类专家的数字轨迹（飞书/钉钉/Slack 消息、文档、邮件、截图）自动蒸馏为结构化可调用 AI 技能包。系统采用「工作技能层（Work Skill）+ 人格层（Persona）」双层架构：前者提取专家的技术规范、决策框架、代码评审标准等显性知识；后者建模语言风格、决策优先级、人际行为等隐性模式。技能包遵循 AgentSkills 开放标准，支持持续进化（增量数据更新）和版本管理（回滚），实现从数字痕迹到可移交专家技能的全自动管道，GitHub 两周获 13000+ Stars。

与本章关系：对应本章「技能的自动生成与标准化」知识点，COLLEAGUE.SKILL 将技能创建从手工编写推进到从真实工作数据中全自动提炼，是 AgentSkills 标准下专家知识可迁移性的最新实践，也是技能系统从编程环境向真实组织知识管理扩展的重要信号。

MMG2Skill：Agent 能将野生指南蒸馏为自进化技能吗？

发表：2026 年 6 月 1 日 | arXiv:2606.01993

核心贡献：网络上存在大量程序性知识（多模态、异构、有噪声），但直接用于 Agent 往往因为隐含人类执行假设而失效。本文将其形式化为"指南到技能学习"（Guide-to-Skill Learning）问题，提出 MMG2Skill 闭环框架：将指南编译为可编辑结构化技能，在执行时以此技能条件化固定的 VLM Agent，再从轨迹级根因反馈中修订技能（无需基准分数）。配套首个专用基准 MMG2Skill-Bench，在 GUI 控制、开放游戏和策略卡牌三类任务下，六个 VLM 骨干均获得 +12.8 至 +25.3 个百分点的宏观平均提升；消融研究表明：直接输入原始指南反而降低性能，结构化编译与轨迹反馈缺一不可。

与本章关系：对应本章「技能的自动生成与持续改进」知识点，是将真实世界异构文档（而非代码执行）作为技能知识来源的最新探索，丰富了技能系统从人类知识中自动蒸馏的路径。

SGDR：状态感知动态检索——面向网页 Agent 的在线技能学习

发表：2026 年 6 月 3 日 | arXiv:2606.04391

核心贡献：现有 Agent 技能复用方法在"任务级"静态检索——根据初始任务指令检索一次技能集，执行全程固定不变。这与网页执行的实际需求不符：合适的下一步动作不仅取决于任务目标，还取决于当前网页状态（页面随操作不断变化）。SGDR（State-Grounded Dynamic Retrieval）提出三组件框架：滑动窗口轨迹提取将已完成轨迹切分为可在中间状态调用的子过程；双重文本-代码表示连接语义检索与可执行动作；状态感知动态检索在每一步同时匹配任务目标和当前网页状态。在 WebArena 五个域的实验中，SGDR 以 GPT-4.1 达到 37.5% 平均成功率，相比最强基线提升约 10.6%。

与本章关系：直接对应本章「技能的检索与复用」知识点，将技能检索从"任务级一次性"升级为"步骤级动态匹配"，是 Skill Learning 与 Agentic RAG 理念深度融合的最新成果，补充了 Voyager 等框架中技能检索粒度过粗的不足。

组合技能路由：基于 MCP 技能的分解-检索-组合框架

发表：2026 年 6 月 22 日 | arXiv:2606.18051

核心贡献：现实用户请求往往需要同时调用多个技能，而现有 Agent 通常以"整体任务匹配单个技能"的方式工作，难以处理需要多技能协同的复杂请求。该研究提出组合技能路由（Compositional Skill Routing）：将用户请求分解为原子子任务，为每个子任务独立检索最合适的 MCP 技能，再将检索到的技能组合编排执行，而无需整体重训练。在覆盖真实 MCP 技能生态的基准上，组合路由方案在多技能协同任务上显著优于单次整体匹配，同时降低了每步工具调用的冗余。

与本章关系：对应本章「技能的检索与复用」与「技能编排」知识点，是将技能系统从"单技能调用"升级为"多技能组合"的最新框架，直接面向 MCP 生态下的真实技能市场场景，补充了 Voyager/SGDR 等工作在技能组合维度的不足。

从零开始学 Agent

9.6 论文解读：技能系统前沿研究

Voyager：LLM 驱动的终身学习 Agent

核心问题

方法原理

关键发现

实验对比

对 Agent 开发的启示

CRAFT：创建和检索专用工具集

核心问题

方法原理

CRAFT vs 直接代码生成

关键发现

对 Agent 开发的启示

Anthropic Skills 生态

核心贡献

框架设计

16 个示范技能覆盖的领域

对 Agent 开发的启示

论文对比与发展脉络

📰 最新论文速递

MAGEO：从经验到技能——多 Agent 可复用策略学习框架

EvoAgent：可演化的技能学习与多 Agent 委托框架

Skill1：强化学习驱动的技能增强 Agent 统一演化框架

从历史到状态：LLM Agent 的常数上下文技能学习

HASP：可执行技能程序——让 Agent 技能从被动建议升级为主动干预

将 Agentic 工作流编译入 LLM 权重：接近前沿质量而成本降低两个数量级

MUSE-Autoskill：技能创建、记忆、管理与评估驱动的 Agent 自进化框架

COLLEAGUE.SKILL：通过专家知识蒸馏实现自动化 AI 技能生成

MMG2Skill：Agent 能将野生指南蒸馏为自进化技能吗？

SGDR：状态感知动态检索——面向网页 Agent 的在线技能学习

组合技能路由：基于 MCP 技能的分解-检索-组合框架

Keyboard shortcuts

从零开始学 Agent