HarnessX:可组合、自适应且可演进的智能体夹具工坊

Hugging Face Daily Papers 论文

摘要

HarnessX 是一个为可组合、自适应且可演进的人工智能智能体夹具打造的工坊,它利用组合原语和轨迹驱动演化来提升智能体性能。在五项基准测试中,它平均提升了 +14.5%(最高达 +44.0%),表明运行时接口演化是模型规模扩展之外的一个互补杠杆。

AI 智能体的性能关键取决于运行时夹具,包括提示词、工具、记忆和控制流,这些组件中介了模型如何观察、推理和行动。然而,如今的夹具大多仍是手工制作且静态的:每个新模型或新任务仍然需要定制的支撑结构,而执行过程中产生的丰富轨迹很少被提炼为系统性的改进。我们介绍了 HarnessX,一个用于可组合、自适应且可演进的智能体夹具的工坊。HarnessX 通过替换代数组装类型化夹具原语,并通过 AEGIS(一种基于轨迹的多智能体演化引擎,其基础是符号适应与强化学习之间的操作镜像)进行适配,同时通过将轨迹转化为夹具更新和模型训练信号来闭环夹具-模型循环。在五项基准测试(ALFWorld、GAIA、WebShop、tau^3-Bench 和 SWE-bench Verified)中,HarnessX 平均提升了 +14.5%(最高达 +44.0%),且在基线最低时提升幅度最大。这些结果表明,智能体的进步不一定仅来自模型规模扩展:根据执行反馈来组合和演化运行时接口是一个可行且互补的杠杆。完整的代码库将在未来版本中开源。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:04

论文页面 - HarnessX: 可组合、自适应且可演化的智能体框架工厂

来源: https://huggingface.co/papers/2606.14249
作者: , , , , , , , , , , , ,

摘要

HarnessX 通过组合式原语、轨迹驱动的演化以及反馈循环(该循环同时改进框架设计与模型训练),实现了自适应且可演化的 AI 智能体运行时界面。

AI 智能体性能 (https://huggingface.co/papers?q=agent%20performance) 关键取决于运行时框架 (https://huggingface.co/papers?q=runtime%20harness), 该框架包括提示 (https://huggingface.co/papers?q=prompts)、工具 (https://huggingface.co/papers?q=tools)、记忆 (https://huggingface.co/papers?q=memory) 和控制流程 (https://huggingface.co/papers?q=control%20flow),这些组件调节着模型如何观察、推理和行动。然而,当今的框架仍大多是手工制作且静态的:每一种新模型或新任务都需要定制的脚手架,而执行过程中产生的丰富轨迹很少被系统地利用来改进。我们提出了 HarnessX,一个用于构建可组合、自适应且可演化的智能体框架的工厂。HarnessX 通过替换代数 (https://huggingface.co/papers?q=substitution%20algebra) 组装类型化的框架原语,通过 AEGIS (https://huggingface.co/papers?q=AEGIS)(一个基于操作镜像 (https://huggingface.co/papers?q=operational%20mirror) 中符号适应 (https://huggingface.co/papers?q=symbolic%20adaptation) 与强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 之间关系的轨迹驱动多智能体演化引擎 (https://huggingface.co/papers?q=multi-agent%20evolution%20engine))进行自适应,并通过将轨迹转化为框架更新和模型训练信号来闭环框架-模型循环 (https://huggingface.co/papers?q=harness-model%20loop)。在五个基准测试(ALFWorld、GAIA、WebShop、tau^3-Bench 和 SWE-bench Verified)中,HarnessX 平均提升了 +14.5%(最高可达 +44.0%),且基线越低提升越大。这些结果表明,智能体的进步不必仅依赖模型规模扩展:根据执行反馈 (https://huggingface.co/papers?q=execution%20feedback) 组合和演化运行时界面是一个可行且互补的杠杆。完整代码将在未来版本中开源。

查看 arXiv 页面 (https://arxiv.org/abs/2606.14249) | 查看 PDF (https://arxiv.org/pdf/2606.14249) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.14249)

在您的智能体中获取此论文:

hf papers read 2606\.14249

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型(0)

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.14249 以便从此页面链接。

引用此论文的数据集(0)

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.14249 以便从此页面链接。

引用此论文的 Space(0)

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.14249 以便从此页面链接。

包含此论文的收藏集(0)

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以便从此页面链接。

相似文章

@NFTCPS: HarnessX这玩意儿挺有意思:一个能自己改自己的智能体架构。 以前架构怎么变,全靠人手调。新模型一出,Anthropic就把Claude Code里的规划步骤砍了,Manus半年重构了五次智能体,每次都在做减法。改什么、什么时候改,一…

X AI KOLs Timeline

HarnessX introduces a framework for self-evolving AI agent harnesses that treats the runtime harness as a first-class object, enabling automatic adaptation via trace-driven reinforcement learning. It achieves average gains of +14.5% across five benchmarks, with larger improvements for weaker models.

面向长时应用开发的Harness设计

Anthropic Engineering

Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。