@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2066928605691523210

X AI KOLs Timeline 新闻

摘要

这篇文章将28篇研究论文提炼成一个10层堆栈,用于构建围绕AI模型的自我改进框架,强调有限、有门控的变化,而非通用的代理循环。

https://t.co/GaUKIrTYcH
查看原文
查看缓存全文

缓存时间: 2026/06/16 19:41

自我改进框架栈的十个层次

28 篇研究论文告诉你应该在模型周围构建什么(框架)

约 10 分钟阅读:十层框架栈、静态框架问题、每层背后的证据,以及每个自我改进智能体演示上方都应放置的一个注意事项

人人都在谈论新的“循环工程”。

大多数开发者可能还不需要通用的智能体循环。

他们需要一个更窄的循环:自我改进框架,系统通过学习编辑模型周围的工具、记忆、技能、策略、验证器和路由来实现改进。

通用循环工程问的是智能体是否应该继续运行。

AlphaSignal AI@AlphaSignalAI·6月9日 文章大多数开发者还不需要智能体循环这些模式在2024年已有记录。这里说明了哪些人受益,以及决定因素的四个条件。

约9分钟阅读:四条件测试、Anthropic在2024年记录了什么、谁损失、为什么……152716639K

自我改进框架工程问的是运行结束后系统学到了什么。

我们审查了这一类中的28篇论文,然后将它们归纳为一个框架栈。涵盖的主要论文见附录。

模式很简单:保持模型稳定,使框架可编辑,记录每次运行,挖掘失败,提出有限度的变更,把关那些变更,对结果进行版本控制,并衡量工作智能体是否真正受益。

这不是“让智能体重写自己”。

它更像是智能体行为的持续集成(CI)。

背景

附注:每个加粗文本实际上都是一篇研究论文。

静态框架是模型周围的系统:提示、工具、记忆规则、上下文选择、重试逻辑、验证器、权限和编排。

它可以很强大且经过手动调优,但在失败后,除非人工修补,否则它不会学习。

自我改进框架将失败证据转化为对该系统的变更。

基础模型可以保持冻结,而学习表面变为外部的、可检查、可测试且可逆的。

AlphaSignal AI@AlphaSignalAI·5月28日 文章模型不再是智能体了加州大学伯克利分校的一篇论文认为,长期智能体性能现在取决于模型周围的六个系统组件,而不仅仅是模型本身。

约9分钟阅读:六组件框架、三个……12114.6K

几篇论文现在报告了在模型保持不变的情况下改变框架所带来的收益。

Self-Harness 报告了在 Terminal-Bench-2.0 上三个模型的留出集增益:从 40.5% 到 61.9%、从 23.8% 到 38.1%、以及从 42.9% 到 57.1%。Agentic Harness Engineering 将 Terminal-Bench 2 的 pass@1 从 69.7% 提高到 77.0%,迭代十次,而基础模型保持不变。

SkillOpt 报告了最干净的可移植状态结果:在所有 52 个评估的模型、基准测试和框架单元中表现最佳或并列最佳。Retrospective Harness Optimization 将 SWE-Bench Pro 从 59% 提高到 78%,而 Natural-Language Agent Harnesses 将 Live-SWE 静态框架策略从 60.10k 代码 token 压缩到 2.90k token,同时得分 73.0 对 67.0。

警告标签来自 Harness Updating Is Not Harness Benefit

该论文发现,跨基础层的框架更新器差距最多为 3.1 个百分点,而下游收益因模型和基准测试而异更大。

因此,声明比“自我改进智能体已解决”要小。

框架可以变为可训练的系统表面,但前提是每次更改都有证据、把关和回滚路径。

该框架栈有十个层。

不要在第一天就构建全部十个层。关键在于知道你的智能体缺少哪个层。

快速要点:从稳定的运行环境和追踪日志开始,然后将学习内容放入团队可检查的外部文件中。

将失败挖掘成小的提案,把关每个变更,对接受的编辑进行版本控制,并在一个框架开始自相矛盾时路由专门的变体。

只有这样,团队才应该衡量工作智能体的收益并考虑权重更新。

第1层:稳定的基础

第一层故意显得无趣。

选择在框架变化时保持固定的东西:基础模型、运行时、工具、任务接口、评估器、权限和基准测试划分。

如果所有东西同时移动,系统就无法判断什么有效。

AHE 将此具体化。它保持基础模型固定,并演化周围的编码智能体框架,将 Terminal-Bench 2 pass@1 从 69.7% 提高到 77.0%。

AlphaSignal AI@AlphaSignalAI·5月1日 文章如何在不触及模型或提示的情况下让编码智能体更智能一篇新论文自动演化编码智能体的工具、中间件和记忆。它在32小时内击败了所有手动调优的框架。

系统提示本身就会退化。仅将其作为唯一的适应手段……360374130K

Self-Harness 从另一个角度使用了同样的纪律。固定模型对其自身运行框架提出有限度的编辑,然后只接受不会使留入或留出划分退化的编辑。

Code as Agent Harness 给出了更广泛的基础思想:代码不再仅仅是智能体编写的东西。它也是智能体运行所经过的可执行、可检查、有状态的媒介。

AlphaSignal AI@AlphaSignalAI·5月21日 文章三个框架层以及如何审计你的栈UIUC、Meta和斯坦福大学的一份100页调查报告绘制了运行Claude Code、Codex和SWE-agent的框架层。

大多数智能体失败不是推理失败。而是框架失败。 一个智能体……2105013K

实用规则:在框架演化运行期间冻结模型和任务接口。

将每次框架更改视为针对稳定基线的差异。

第2层:追踪日志

框架不能仅从最终答案中学习。

它需要路径:工具调用、文件读取、重试、验证器输出、成本、失败和状态变化。

AHE 将此称为经验可观察性。其智能体调试器将原始运行转化为每个任务的分析报告和基准测试概览,以便更新器读取根本原因而不是一堆追踪记录。

RHO 将这一理念推得更远。它通过复用未标记的过去轨迹,然后使用自我偏好对候选框架进行排序,将 SWE-Bench Pro 从 59% 提高到 78%。

ReflexionExpeL 是同一本能的早期版本。

失败的运行应该留下一些东西:反思、经验、见解或改变下一次运行的追踪记录。

日志记录规则:保留完整轨迹和得分。

得分告诉更新器某些东西失败了。轨迹告诉它去哪里查看。

第3层:外部状态

将学习内容放在模型之外是最安全的地方。

技能、记忆文件、自然语言策略、工具包装器和可重用过程可以被检查、复制、测试和回滚。

SkillOpt 是最清晰的例子。它编辑一个可移植的技能文档,保持目标模型和框架固定,并且仅当留出选择得分提高时才接受编辑。

这个边界很重要。SkillOpt 不是完整的框架重写器,但它是开发者今天最容易采用的模式。

它的数字难以忽视:在 52 个评估单元中的 52 个中表现最佳或并列最佳,GPT-5.5 在直接聊天中提升 +23.5 分,在 Codex 中提升 +24.8 分,在 Claude Code 中提升 +19.1 分。

AlphaSignal AI@AlphaSignalAI·5月26日 文章适应前沿模型的第三种方法微软刚刚像训练神经网络权重一样训练了智能体的技能文件,采用有限编辑、留出把关、在6个基准测试和3个框架中实现52/52胜。

约7分钟阅读:第三种方式……294011K

Natural-Language Agent Harnesses 在框架策略层面做了同样的操作。

它将高层框架控制转化为一个更短的可编辑文档,然后通过智能框架运行时运行它。在 Live-SWE 上,论文报告了 60.10k 代码 token 压缩到 2.90k 自然语言框架 token,得分为 73.0 对 67.0(代码框架)。

Trace2Skill 展示了该层的另一个版本。

它将执行轨迹提炼成一个可移植的技能目录,并报告在 WikiTableQuestions 上最高提升 +57.65 绝对分,当从 Qwen3.5-35B 轨迹演化的技能改进了 Qwen3.5-122B 智能体时。

HeavySkill 从推理角度指向同一方向。

该文章的有用教训不是仓库路径。而是重复的推理协议可以成为可移植的技能,而不是隐藏在编排代码内部。

AlphaSignal AI@AlphaSignalAI·5月7日 文章HeavySkill如何将智能体框架技巧转化为一个单文件内部技能来自美团的二阶段协议,R1-Distill-Qwen3-8B 在 IFEval 上从 35.7% 提升到 69.3%

美团LongCat团队认为Claude Code、Codex和Kimi K2内部的深度思考模式是一种技能……10625.5K

采用规则:从一个外部工件开始。

如果团队无法对一个技能文件或框架策略进行版本控制,那么它还没有准备好进行自我改进框架。

第4层:失败挖掘

不要将每个追踪记录都发回给更新器。

框架需要那些能教会可重用教训的失败。

Self-Harness 将此称为弱点挖掘。失败的记录按验证器原因、因果状态和智能体机制进行聚类,然后打包成用于提案的证据包。

RHO 使用不同的过滤器。它选择一个难度多样化的核心集(10个过去任务),每个任务运行3条轨迹,并在提出框架更新之前结合自我验证和自我一致性。

Trace2Skill 将工作分配给分析智能体。

一个分析智能体读取一条轨迹,解释一个局部教训,然后一个合并步骤将补丁压缩成一个技能目录。

AHE 在框架规模上做同样的事情。它将原始运行转化为每个任务的根本原因报告加上一个基准测试概览。

失败挖掘规则:将失败挖掘成命名类别。

“改进智能体”太模糊。“修复由缺少工具状态检查导致的重复验证器失败”是一个即将发生的框架更新。

第5层:提案引擎

只有现在智能体才编写更改。

提案引擎将证据转化为候选编辑:提示规则、工具包装器、记忆更改、技能更新、路由策略或工作流更改。

Meta-Harness 展示了为什么提案者需要的不仅仅是得分。

其全历史接口在文本分类消融实验上达到 50.0,而仅得分达到 34.6,得分加摘要达到 34.9。

同一篇论文报告在在线文本分类上使用大约 4 倍少的上下文 token 提升 +7.7 点,以及在检索增强数学上跨五个留出模型提升 +4.7 点。

AHE 添加了更严格的合同。

每个编辑命名更改的组件、背后的证据、预期的修复以及有风险的回归。下一轮检查这些预测是否实现。

HarnessX 使编辑表面类型化。

其 AEGIS 循环通过类型化处理器编辑框架原语,但其 +14.5% 平均增益和 +44.0% 峰值增益带有一个重要警告:所有增益都是在用于演化的同一任务集上测量的。

提案规则:使每个编辑足够小以便测试。

没有预测结果的框架编辑只是一个更漂亮的提示。

第6层:验证把关

把关是产品。

没有它,循环只是自动化的过拟合方式。

Self-Harness 仅当候选编辑不退化留入或留出划分并且至少改进其中一个时才接受它。

SkillOpt 甚至更干净:候选技能必须在留出选择划分上严格高于当前技能得分。平局被拒绝。

HUINHB 解释了为什么这个把关不能止步于“更新看起来有用”。

该论文将框架更新与框架收益分开,并表明更新器质量可能仅相差 3.1 点,而下游收益差异更大。

把关规则:没有留出检查、回归检查或领域验证器,就不要推广框架编辑。

没有把关,就没有自我改进。

第7层:版本控制和回滚

自我改进框架应该看起来更像一个仓库,而不是一个记忆块。

每个更改都需要差异、原因、得分和返回路径。

Autogenesis 通过版本化资源、提交和回滚来形式化这一点。

提示、智能体、工具、环境和记忆成为具有不可变快照和恢复操作的一等对象。

AHE 通过文件级编辑、git 提交和记录预测修复与预测回归的清单来实现。

SkillOpt 也保留被拒绝的编辑。失败的编辑成为下一轮的负面证据,而不是垃圾。

血统规则:保留历史。

如果未来的运行变得更糟,系统应该确切知道首先责怪哪个框架编辑。

第8层:路由和变体

一个框架不能永远承载每个教训。

随着任务的分化,单一的全局策略变成了一堆局部修补。

Adaptive Auto-Harness 为开放式的任务流使用框架树和求解时路由。

每个分支携带自己的提示、技能和工具注册表,路由器以 0.7 的置信度阈值选择分支。

HarnessX 在其实验内部显示了同样的压力。

在 GAIA 上使用 GPT-5.4,单框架的全局策略峰值达到 73.8% 然后下降到 49.5%,而集成的路由达到 87.4%。

Voyager 是不同领域中较老的直觉。

它维护一个可执行的技能库,检索最相关的 5 个技能,并在 309 个样本上报告 96.5% 的前五检索准确率。

路由规则:在框架变得矛盾之前进行分支。

按任务类别、难度、工具表面或失败模式进行路由。

第9层:收益测量

框架更新并不等同于更好的智能体。

HUINHB 的存在是因为这两个数字经常被混为一谈。

该论文报告,框架更新器性能跨基础层相对平坦,差距最多为 3.1 点。

但下游收益是非单调的。在 SWE 风格的任务上,Qwen3-235B 获得 19.3 点收益,Qwen3-32B 获得 4.4 点,Claude Opus 4.6 获得 2.6 点。

这意味着更新的编写者并不总是瓶颈。

有时工作智能体无法加载框架、遵循它或从长期运行中受益。

测量规则:使用新框架测量工作智能体。

不要将更新质量作为部署行为的代理。

第10层:可选的权重更新

权重更新放在最后。

当任务需要框架无法表达的行为时,它们是有用的,但它们使归因变得更困难。

SIA 是混合情况。

它在一个反馈智能体循环中结合了框架更新和权重更新。

SIA 的 arXiv v2 摘要报告了在 LawBench 上比之前 SOTA 高 25.1%,GPU 内核比之前 SOTA 快 12.4%(1017 对 1161 微秒),以及在去噪任务上比之前 SOTA 高 20.4%。

AlphaSignal AI@AlphaSignalAI·6月13日 文章SIA的自我改进循环如何工作,以及如何实际运行它一个重写脚手架并训练LoRA权重的反馈智能体,三个SOTA结果,一个MIT仓库,以及10分钟设置

约8分钟阅读:3智能体循环,跨3个……的框架vs权重消融……212555.3K

训练规则:在框架循环可测量之前不要训练权重。

如果缺少追踪、把关、回滚和收益测量,权重更新只会使系统更难调试。

AlphaSignal 要点

真正的转变不是将自我改进作为人格特质。

而是将自我改进作为软件循环。

最安全的栈从小处开始:追踪日志、一个外部技能或策略文件、一个提案步骤、一个验证把关。

然后添加版本控制、路由和收益测量,然后再进行权重更新。

最强的论文指向同一方向,但证据还不够广泛,不能盲目信任。

几个结果是基准测试特化的、相同划分的,或在用于演化的任务集内部测量的。HarnessX 明确报告没有留出评估。

要记住的那句话来自 HUINHB:框架更新不等于框架收益。

如果工作智能体无法加载、遵循或使用新框架,那么更新只是一个看起来不错的差异。

因此,对于任何自我改进的

相似文章

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2057153343081111582

X AI KOLs Timeline

UIUC、Meta和斯坦福大学联合发布的一份100页调查报告引入了人工智能代理的三个 harness 层(接口、机制、Scaling),认为大多数代理失败源于 harness 问题而非推理缺陷,并提供了一个用于审计代理堆栈的分类体系。

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2054201045346287766

X AI KOLs Timeline

文章探讨了 Sakana AI 和 Meta 关于自我改进型 AI 智能体的最新研究,具体涉及达尔文-哥德尔机器(Darwin-Gödel Machine)和超智能体(Hyperagents),它们能够自主重写自身代码和基础设施以提升性能,且无需人工干预。

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

X AI KOLs Timeline

对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。