@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2057153343081111582

X AI KOLs Timeline 论文

摘要

UIUC、Meta和斯坦福大学联合发布的一份100页调查报告引入了人工智能代理的三个 harness 层(接口、机制、Scaling),认为大多数代理失败源于 harness 问题而非推理缺陷,并提供了一个用于审计代理堆栈的分类体系。

https://t.co/eOXPctoGw7
查看原文
查看缓存全文

缓存时间: 2026/05/21 13:35

三大编排层以及如何审计你的技术栈

UIUC、Meta 和斯坦福联合发布的百页调查报告,剖析了驱动 Claude Code、Codex 和 SWE-agent 的编排层

大多数智能体失败的原因并非推理失败,而是编排层失败。

一个智能体能在两个失败策略之间循环往复并每次都通过测试,只因编排层没有死胡同检测机制。

UIUC、Meta 和斯坦福联合发布的一份百页新报告,详细阐述了其中缘由。

论文

论文标题为《代码即智能体编排层》(Code as Agent Harness)。来自 UIUC、Meta 和斯坦福的 40 多位研究者共同撰写,综合了 400 多篇论文,形成了以编排层而非模型为主体的单一分类体系。

核心系统都是我们熟悉的那些:Claude Code、Codex、SWE-agent、Voyager、MetaGPT、OpenHands。过去半年在推特上被反复讨论的话题,如今有了学术框架作为支撑。论文的贡献在于综合归纳,而非发现新知。

核心论点

长期运行的智能体在状态、反馈和验证环节失败,而非推理环节。自主性的瓶颈在于系统能否让模型的输出对可执行的结果负责。

论文将任何智能体系统拆分为三个耦合部分。

第一部分是模型内部能力:推理、规划、感知。

第二部分是系统提供的基础设施:工具、沙箱、记忆、权限层级、遥测。

第三部分则是尚未充分探索的领域:智能体自主生成的代码产物,包括回归测试、临时工具、DSL 程序、可执行工作流以及智能体在任务中途自行创作的可复用技能。Voyager 的技能库和 Claude Code 的技能文件都是早期实例。

在这三个部分之上,存在三个层级。

编排层接口:将代码置于中心位置,作为推理、行动和环境状态的媒介。

编排层机制:涵盖规划、记忆、工具使用以及“计划-执行-验证”循环。

编排层扩展:将视角延伸至多智能体系统,这些系统通过共享代码产物进行协作。

如何审计你的技术栈

三个问题,对应三个层级。它们直指多数技术栈实际崩溃的根源。

接口问题。

你的智能体的推理、行动和环境状态,是否通过可执行和可检查的代码传递?健康的技术栈包含工具调用、生成的程序、仓库状态、追踪记录和测试。不健康的技术栈则依赖自然语言计划,而智能体从来不需要用实际执行来捍卫这些计划。

如果不健康:让模型输出可执行代码作为其推理,为智能体提供结构化的智能体-计算机接口(如 SWE-agent 的 shell + edit + search 命令),并让它在真实的仓库状态(而非文本描述)上操作。

机制问题。

当某件事失败时,编排层会做什么?健康的技术栈运行一个“计划-执行-验证”循环,包含命名的验证器(单元测试、类型检查、代码检查器、运行时监控)、跨会话的持久化记忆,以及闭环反馈。不健康的技术栈则只会用更多 token 和更长的上下文窗口进行重试。

如果不健康:在生成步骤之间(而不仅仅是在最后)加入命名的验证器作为关卡。大多数智能体只有工作记忆,也就是当前提示中的内容。

论文还提出了另外四种记忆类型,它们决定了昨天的调试会话能否对今天有所帮助:关于仓库的语义记忆、关于过去轨迹的经验记忆、带有压缩策略的长期记忆,以及用于共享状态的多智能体记忆。OpenHands 的有状态工作区和 CodeMem 的预算化记忆槽是值得研究的参考实现。

扩展问题。

当两个智能体处理同一任务时,共享的基础是什么?健康的技术栈使用共享代码产物(仓库、测试、追踪记录、结构化工作流),并配有冲突处理策略。不健康的技术栈则来回传递消息,没有双方都能安全修改的共享状态。

如果不健康:用双方都能读写共享产物替代直接的消息传递。论文强调的模式包括 AgentCoder 的“程序员-测试员-执行者”分离,以及 MetaGPT 在共享消息池基础上进行角色分工的多智能体。

如果上述任何答案让你觉得不够健康,论文已经指出了相应的失败模式。

此外,论文还涵盖了

  • 五个应用领域:代码助手、GUI/OS 智能体、科学发现、具身智能体、个性化。

  • 自我进化的编排层:AutoHarness、Meta-Harness、智能体编排层工程(AHE)(相关文章见下方)、GEPA、EvoMAC 和 SEW。编排层本身成为优化对象,智能体的任务代码则是其下游效果。

AlphaSignal AI@AlphaSignalAI·5月1日 文章如何在不触碰模型或提示的情况下让编码智能体变得更智能一篇新论文自动进化了编码智能体的工具、中间件和记忆。它在32小时内击败了所有人手调优的编排层。

仅调整系统提示会导致性能倒退。将其作为唯一的适应手段… 360379128K

  • 工作流拓扑:多智能体代码工作的五种模式:瀑布式、循环式、层级式(相关文章见下方)、星型式、自适应性。

AlphaSignal AI@AlphaSignalAI·5月5日 文章RecursiveMAS 如何让智能体无需对话即可协作,以及今天如何运行所有四种模式智能体传递嵌入向量而非文本。准确率提升8.3%,速度快2.4倍,token减少75.6%。

多智能体系统的工作原理是让智能体通过文本相互对话。RecursiveMAS 让它们在潜在空间中进行思考… 29644.9K

  • 规划范式:四类,从 ReAct 式的线性分解到基于树搜索的候选路径探索。

  • 三个未解决的开放问题:不会破坏旧行为的编排层进化、支持安全协调的智能体间共享状态、以及处理截图和物理状态的多模态编排层。

AlphaSignal 的见解

这是该领域迄今为止对从业者已在构建的东西最有用的词汇集合。但它并非构建计划。论文的开放问题中指出了三个差距。每一个都是对你现有技术栈的设计警告。

预言适配性。

如果你的评估仅靠单元测试的通过/失败来判断,那么你衡量的东西错了。今天的每一项智能体评估都将模型质量、工具可靠性和编排层质量压缩到一个最终任务数字中。论文指出了这一核心瓶颈,但没有提供解决该问题的指标。

验证差距。

测试通过并不等同于正确的规范。每一个被接受的动作都应该附带一份证据包:哪些检查运行了、哪些假设成立、哪些代码部分未经测试、还存在哪些风险。目前没有任何编排层能做到这一点。这个架构模式就摆在那里,等待有人将其落地。

不会重置的审批权限。

如果审批权限在会话结束后消失,你的智能体下次还会重复同样的不安全行为。权限规则应该根据人类的决策而变化,而不是重置。论文指出了这一点,但就此打住。

把它当作一份词汇表,而非路线图。编排层是团队目前积极优化的层面。这个分类体系会让你在讨论技术栈时更加精准。但它不会告诉你周一该构建什么。

你的智能体是否拥有一个验证器,而不仅仅是模型对自己的输出进行评判?

源链接在第一条回复中。

近期更新的完整解读及每日信号,请参阅我们的通讯(链接在个人简介中)。

相似文章

代码即代理框架

Hugging Face Daily Papers

本综述论文提出了一个统一视角,将代码视为代理系统中代理推理与执行的操作基础,围绕三个层次组织讨论:框架接口、机制与扩展。

@Potatoloogs: https://x.com/Potatoloogs/status/2057391224592667051

X AI KOLs Timeline

本文深度拆解了Agent Harness的概念,即包裹在LLM外部的工程基础设施,包括编排循环、工具调用、记忆系统、上下文管理等12个组件。文章引用Anthropic、OpenAI、LangChain等公司的实践,论证了harness对生产级AI Agent的关键作用。