@sethkarten: https://x.com/sethkarten/status/2072034978112889328

X AI KOLs Following 2026/06/30 19:10 论文

arc-agi self-improving-agent agentic-harness world-model skill-reuse test-time-learning foundation-model

摘要

Continual Harness 是一种无需重置、自我改进的智能体框架，通过存储记忆、复用技能和优化提示，在 ARC-AGI-3 上以 774 美元的成本达到了 20.54% 的准确率，以更高的效率超越了 Hermes 和 OpenClaw 等先前基准。

https://t.co/HqIj86rXEp

查看原文

查看缓存全文

缓存时间: 2026/07/01 06:03

Continual Harness：一种高效的ARC-AGI-3自我改进智能体

ARC-AGI-3 是针对智能体的一项智商测试。该基准测试要求大量的测试时学习，这促使智能体形成一个关于规则和机制的内部世界模型，并能根据新证据不断更新。

Continual Harness 是一种无需重置、自我改进的智能体框架，它能使基础模型在交互式任务中存储记忆、编写可复用的技能、部署子智能体，并优化自身的提示词。

我们在 ARC-AGI-3 的公开集上进行了研究，该公开集包含共享环境中的 25 个未知游戏。每个游戏都设计为隐藏其规则、机制和评分方法，因此智能体无法依赖人工设计的任务描述或特定领域的工具。这对当前的 LLM 智能体和前沿模型构成了严峻的挑战。截至 2026 年 6 月 30 日，验证排行榜上表现最好的前沿模型 Claude Opus 4.8 (high) 仅达到 1.5%，而官方发布的 OpenClaw 框架搭配 Claude Opus 4.7 也仅达到 5.2%。

从最少的游戏环境信息（甚至没有 ASCII 地图的颜色图例）出发，并严格限制在沙箱中执行代码，Continual Harness 以仅 774 美元的总成本获得了 20.54% 的得分。这一结果使其成为排行榜上最高效的智能体框架之一。

我们的主要收获是：Continual Harness 通过在测试时改进世界模型来实现泛化，通过技能复用来提高效率，并利用无需重置的优化来从早期探索中实现自我提升。

结果

Continual Harness 在 ARC-AGI-3 公开集上以 774 美元的成本获得了 20.54% 的得分。这一结果优于受控的 Hermes 基线（8.25%，成本 5,674 美元）、公开的 OpenClaw 参考点（5.20%，成本 2,912 美元）以及 A-Evolve MAS Evolved 智能体（12.30%，成本 5,300 美元）。

Continual Harness 的得分优势主要来源于行动效率。它通过发现可行的机制并在后续关卡中复用来完成关卡。与 Hermes 相比，Continual Harness 完成的关卡总数更少（64 关 vs. 70 关），但最终得分却超过了两倍。逐关卡比较显示，Continual Harness 在已完成的关卡上平均仅为人类基线行动的 1.48 倍，而 Hermes 平均为 15.30 倍。

Continual Harness 之所以高效，是因为有用的计算成为了框架状态的一部分，而不是作为临时草稿。在 25 个游戏中，62% 的执行行动源自已保存的技能，而非全新的 VLM 推理。在 cn04 和 ft09 等框架表现最好的游戏中，这一比例超过了 80%。

Hermes 基线则提供了一个有用计算保持短暂性的例子：Hermes 将其 18,717 次工具调用中的 86% 用于执行代码（execute_code），而仅有 0.07% 用于持久化技能或记忆。像 BFS 求解器、网格解析器和状态跟踪器等有用的脚本被反复地作为一次性代码编写。

这项关于 ARC-AGI-3 和 Continual Harness 的研究由 Ruirong Feng 领导。我们感谢原始研究的所有作者：Seth Karten、Joel Zhang、Tersoo Upaa Jr、Ruirong Feng、Wenzhe Li、Chengshuai Shi、Chi Jin、Kiran Vodrahalli。我们也感谢 Google DeepMind 通过 Gemini API 额度对本研究提供的支持。

完整报告、演示和回放视频：https://continual-harness.github.io/

论文：arxiv.org/abs/2605.09998

代码：github.com/feng-rrRay/Continual-Harness-ARC-AGI-3

@sethkarten: https://x.com/sethkarten/status/2072034978112889328

Continual Harness：一种高效的ARC-AGI-3自我改进智能体

结果

相似文章

Self-Harness: 自我改进的Harness

@omarsar0: // 自我束具：能自我改进的束具 // （收藏这个）我们今天依赖的大多数智能体框架…

最好的智能代理工具会这样做……

持续增强框架：面向自我改进基础智能体的在线适应

HarnessX：可组合、自适应且可演进的智能体夹具工坊

提交意见反馈