← 返回首页
9 分钟阅读
SkillOpt:微软研究院的 Agent 技能自进化优化器
AI与机器学习2026-05-30

SkillOpt:微软研究院的 Agent 技能自进化优化器

SkillOpt: Executive Strategy for Self-Evolving Agent Skills

📄
论文链接:arXiv:2605.23904 作者:Yifan Yang, Ziyang Gong 等(Microsoft Research) 提交日期:2026 年 5 月 22 日 GitHub:https://aka.ms/skillopt(⭐ 2.86k) HuggingFace 热榜:#1 Trending(202 upvotes)

📌 核心问题:Agent 技能如何像神经网络权重一样被训练?

当前 AI Agent 的技能(Skill)获取方式主要有三种:人工手写规则、一次性 LLM 生成、或通过松散的自修订机制迭代。但这三种方式有一个共同缺陷——它们都不像深度学习优化器那样对技能本身进行系统性的、可复现的训练。技能的质量高度依赖初始 prompt 的质量,且缺乏稳定的改进保障。

SkillOpt 论文提出了一个关键洞察:Agent 的技能应该被视为「冻结 Agent 的外部状态」,用与权重空间优化相同的纪律来训练。这就好比把 Agent 的 prompt/技能文档当作一个可训练的「参数」,用一个独立的优化器模型来迭代改进它,而不是靠 LLM 的「灵感」随机生成。

这个问题为什么重要?因为随着 Coding Agent(如 Claude Code、Codex)在真实软件工程中的渗透,Agent 的核心竞争力正从「模型能力」转向「环境设计能力」——也就是 Harness Engineering 中强调的「约束比代码更贵」。SkillOpt 提供了一个让这些约束/技能自动进化的系统化方案。

📊 关键数据:全面碾压所有竞品

🏆
在 6 个 benchmark × 7 个目标模型 × 3 种执行环境 = 52 个评估单元中,SkillOpt 全部达到最优或并列最优,击败了所有竞品(人工技能、一次性 LLM、Trace2Skill、TextGrad、GEPA、EvoSkill)。

GPT-5.5 上的性能提升:

  • Direct Chat 模式:平均准确率提升 +23.5 个百分点
  • Codex Agent 循环:提升 +24.8 个百分点
  • Claude Code 环境:提升 +19.1 个百分点

迁移实验表明,优化后的技能文档可以跨模型规模、跨执行环境(Codex ↔ Claude Code)、甚至迁移到相近的数学 benchmark 而无需重新优化,展现出强大的泛化能力。

🏗️ 技术架构与设计

  • 核心思路:将 Agent 技能建模为「文本空间中的可训练状态」,而非固定的 prompt 模板。一个独立的优化器模型对技能文档执行 bounded add/delete/replace 编辑操作。
  • 验证驱动:每次编辑必须在 held-out 验证集上严格提升分数才被接受,类似深度学习中的 validation-based early stopping。
  • 稳定训练机制:引入「文本学习率预算」控制单次编辑幅度、「被拒编辑缓冲区」防止重复尝试、以及 epoch 级别的慢速/元更新保证收敛稳定性。
  • 零推理开销:优化过程完全离线,部署时技能文档作为静态上下文注入,不增加任何额外的模型调用。
  • 广泛兼容:支持 Direct Chat、Codex、Claude Code 三种执行环境,覆盖 7 个主流模型(GPT-5.5 等)。

🔑 关键洞察

1. 技能 ≠ Prompt,技能是可训练的外部状态

🔑
传统观点把 Agent 技能等同于一段 prompt。SkillOpt 证明,技能更像是一个「软参数」——它有独立的训练循环、验证机制和优化目标。这意味着 Agent 的能力提升不必依赖更强的底层模型,而可以通过优化技能文档本身来实现。

2. 文本空间优化器的可行性被验证

🔑
SkillOpt 证明了「用 LLM 优化 LLM 的输入」这条路是可行且有效的。优化器模型通过分析 rollout 轨迹和评分,生成针对性的文本编辑。这与 TextGrad(梯度在文本空间的类比)的思想一脉相承,但 SkillOpt 引入了更严格的验证机制和更稳定的训练流程。

3. 技能的跨环境迁移能力

🔑
优化后的技能不仅能在一个模型/环境中工作,还能迁移到不同的模型规模和执行环境。这对实际部署意义重大——你可以在一个便宜的模型上优化技能,然后部署到更强的模型上使用,大幅降低优化成本。

4. Harness Engineering 的自动化路径

🔑
Harness Engineering 强调「环境设计 > 模型能力」,但好的环境设计需要大量人工经验。SkillOpt 提供了一条自动化路径:让 Agent 的约束规则、代码规范、测试策略等「技能文档」通过数据驱动的方式自动进化,而不是靠工程师手写。这对 Agent 工程化落地是一个重要的基础设施级贡献。

💭 引发思考

SkillOpt 的出现标志着 Agent 工程从「手工作坊」向「自动化训练」的范式转移。当技能可以像模型权重一样被系统性地优化时,Agent 的核心竞争力将不再是「用了什么模型」,而是「拥有什么样的技能训练流程」。这与 Harness Engineering 的核心理念高度一致——约束比代码更贵,而 SkillOpt 让这些约束可以被自动优化。

但也有值得思考的问题:当技能文档被自动优化后,它是否还能被人类理解和调试?如果一个优化后的 AGENTS.md 中包含了人类无法理解的「trick」,这对代码可维护性和团队协作意味着什么?这可能是 SkillOpt 在实际工程落地中需要解决的关键挑战。

📚 相关阅读

  • 论文原文:arXiv:2605.23904(https://arxiv.org/abs/2605.23904)
  • GitHub 代码:microsoft/SkillOpt(https://aka.ms/skillopt)
  • Harness Engineering 概念:OpenAI 提出的环境设计范式,强调约束 > 代码
  • TextGrad:文本空间梯度优化的先驱工作

逍遥云初 | 2026.05.30

逍遥云初 · 2026-05-30

记录 · 思考 · 成长