@sethkarten: https://x.com/sethkarten/status/2072034978112889328
摘要
Continual Harness 是一种无需重置、自我改进的智能体框架,通过存储记忆、复用技能和优化提示,在 ARC-AGI-3 上以 774 美元的成本达到了 20.54% 的准确率,以更高的效率超越了 Hermes 和 OpenClaw 等先前基准。
查看缓存全文
缓存时间: 2026/07/01 06:03
Continual Harness:一种高效的ARC-AGI-3自我改进智能体
ARC-AGI-3 是针对智能体的一项智商测试。该基准测试要求大量的测试时学习,这促使智能体形成一个关于规则和机制的内部世界模型,并能根据新证据不断更新。
Continual Harness 是一种无需重置、自我改进的智能体框架,它能使基础模型在交互式任务中存储记忆、编写可复用的技能、部署子智能体,并优化自身的提示词。
我们在 ARC-AGI-3 的公开集上进行了研究,该公开集包含共享环境中的 25 个未知游戏。每个游戏都设计为隐藏其规则、机制和评分方法,因此智能体无法依赖人工设计的任务描述或特定领域的工具。这对当前的 LLM 智能体和前沿模型构成了严峻的挑战。截至 2026 年 6 月 30 日,验证排行榜上表现最好的前沿模型 Claude Opus 4.8 (high) 仅达到 1.5%,而官方发布的 OpenClaw 框架搭配 Claude Opus 4.7 也仅达到 5.2%。
从最少的游戏环境信息(甚至没有 ASCII 地图的颜色图例)出发,并严格限制在沙箱中执行代码,Continual Harness 以仅 774 美元的总成本获得了 20.54% 的得分。这一结果使其成为排行榜上最高效的智能体框架之一。
我们的主要收获是:Continual Harness 通过在测试时改进世界模型来实现泛化,通过技能复用来提高效率,并利用无需重置的优化来从早期探索中实现自我提升。
结果
Continual Harness 在 ARC-AGI-3 公开集上以 774 美元的成本获得了 20.54% 的得分。这一结果优于受控的 Hermes 基线(8.25%,成本 5,674 美元)、公开的 OpenClaw 参考点(5.20%,成本 2,912 美元)以及 A-Evolve MAS Evolved 智能体(12.30%,成本 5,300 美元)。
Continual Harness 的得分优势主要来源于行动效率。它通过发现可行的机制并在后续关卡中复用来完成关卡。与 Hermes 相比,Continual Harness 完成的关卡总数更少(64 关 vs. 70 关),但最终得分却超过了两倍。逐关卡比较显示,Continual Harness 在已完成的关卡上平均仅为人类基线行动的 1.48 倍,而 Hermes 平均为 15.30 倍。
Continual Harness 之所以高效,是因为有用的计算成为了框架状态的一部分,而不是作为临时草稿。在 25 个游戏中,62% 的执行行动源自已保存的技能,而非全新的 VLM 推理。在 cn04 和 ft09 等框架表现最好的游戏中,这一比例超过了 80%。
Hermes 基线则提供了一个有用计算保持短暂性的例子:Hermes 将其 18,717 次工具调用中的 86% 用于执行代码(execute_code),而仅有 0.07% 用于持久化技能或记忆。像 BFS 求解器、网格解析器和状态跟踪器等有用的脚本被反复地作为一次性代码编写。
这项关于 ARC-AGI-3 和 Continual Harness 的研究由 Ruirong Feng 领导。我们感谢原始研究的所有作者:Seth Karten、Joel Zhang、Tersoo Upaa Jr、Ruirong Feng、Wenzhe Li、Chengshuai Shi、Chi Jin、Kiran Vodrahalli。我们也感谢 Google DeepMind 通过 Gemini API 额度对本研究提供的支持。
完整报告、演示和回放视频:https://continual-harness.github.io/
论文:arxiv.org/abs/2605.09998
代码:github.com/feng-rrRay/Continual-Harness-ARC-AGI-3
相似文章
Self-Harness: 自我改进的Harness
Self-Harness 提出了一种新范式,其中基于LLM的智能体通过挖掘模型特定的弱点、提出框架修改,并通过回归测试验证这些修改,从而迭代地改进自身的运行框架,在Terminal-Bench-2.0上跨多个基础模型取得了显著的性能提升。
@omarsar0: // 自我束具:能自我改进的束具 // (收藏这个)我们今天依赖的大多数智能体框架…
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
最好的智能代理工具会这样做……
作者分享了构建高效智能代理工具的见解:最好的工具最大限度地减少对大语言模型(LLM)在琐碎任务上的依赖,将其保留用于复杂推理,从而将真正的代理工具与简单的包装器区分开来。
持续增强框架:面向自我改进基础智能体的在线适应
本文介绍了“持续增强框架”(Continual Harness),该框架使具身人工智能智能体能够在无需重置环境的情况下实现在线自我改进。研究展示了在《宝可梦》游戏中的显著进展,通过自动化提示词和技能优化,智能体达到了人类水平的表现。
HarnessX:可组合、自适应且可演进的智能体夹具工坊
HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。