@dair_ai: // 状态外部化框架 // 关于如何有效构建代理和框架的一种新范式正在兴起。如果……
摘要
Harness-1 引入了一种状态外部化框架,将常规记账与搜索代理中的策略决策分离,使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。
查看缓存全文
缓存时间: 2026/06/02 15:47
// 状态外化框架 //
一种构建智能代理与框架的新范式正在浮现。
如果环境能够可靠地维护某种状态,那么这种状态很可能不应归属于策略内部。将其移入框架中,一个200亿参数的模型就能训练得更好,泛化能力也更强。
搜索代理通常基于一个不断增长的对话记录进行单一策略训练,因此强化学习必须同时学习语义搜索和常规性记账任务。而本文提出的模型Harness-1将两者分离开来。
该框架将工作记忆(候选池、证据链接、验证记录、去重后的观察、预算感知的上下文)保留在策略之外,200亿参数的模型仅需决定搜索什么、保留什么、验证什么以及何时停止。
在涵盖网页、金融、专利和多跳问答等领域的八个检索基准测试中,Harness-1的平均精选召回率达到0.730,领先次优开源搜索代理11.4个百分点,并与规模大得多的前沿模型搜索器保持竞争力。其性能提升在留出迁移任务上最为显著。
论文:https://arxiv.org/abs/2606.02373
在我们的学院中学习构建高效的AI代理:https://academy.dair.ai
Harness-1:基于状态外化框架的搜索代理强化学习
来源:https://arxiv.org/abs/2606.02373 查看PDF (https://arxiv.org/pdf/2606.02373)
摘要:搜索代理通常被训练为基于不断增长的对话记录执行策略:模型必须决定如何进行搜索,同时还要记住它已经看到的内容、哪些证据是有用的、哪些约束条件尚未满足、哪些声明实际上已被验证。我们认为这种形式将过多的常规状态管理负担放在了策略内部:强化学习被迫同时优化语义搜索决策和本可由环境更可靠地维护的、可恢复的记账任务。我们提出了Harness-1,一个200亿参数的搜索代理(检索子代理),它在有状态搜索框架内使用强化学习进行训练。该框架维护环境侧的工作记忆,包括候选池、重要性标记的精选集、紧凑的证据链接、验证记录、压缩和去重后的观察,以及预算感知的上下文渲染。策略则保留了语义决策:搜索什么、保留或丢弃哪些文档、验证什么以及何时停止。在涵盖网页、金融、专利和多跳问答等领域的八个检索基准测试中,Harness-1的平均精选召回率达到0.730,领先次优开源搜索子代理11.4个百分点,并与规模大得多的前沿模型搜索器保持竞争力。其性能提升在留出迁移基准上尤为突出,这表明在显式搜索状态上进行强化学习可以产生超越训练领域的检索行为。我们的代码可在以下链接获取:https://github.com/pat-jj/harness-1。
提交历史
来自:彭程江 查看电子邮件 [v1] 2026年6月1日星期一 15:21:41 UTC(6,831 KB)
相似文章
Harness-1:采用状态外化约束的搜索代理强化学习
介绍了 Harness-1,一个使用状态外化约束训练的 200 亿参数开源搜索代理,实现了强大的检索性能,并在多个基准测试上超越了更大的前沿模型。
@sydneyrunkle: 假设智能体 = 模型 + 工具套件。不幸的是,好的模型越来越贵!所以你需要一个出色的工具套件来…
关于通过改进工具套件组件来优化AI智能体性能的指南,以补偿昂贵的模型成本,重点关注爬山技术。
@omarsar0: // Scaling Laws for Agent Harnesses // 如果你构建代理框架,这篇文章值得一看。(收藏)大多数 harness…
关于代理框架缩放定律的新研究显示,大多数字令和工具调用次数并不重要;该研究引入了一种有效的方法。
@Potatoloogs: https://x.com/Potatoloogs/status/2057391224592667051
本文深度拆解了Agent Harness的概念,即包裹在LLM外部的工程基础设施,包括编排循环、工具调用、记忆系统、上下文管理等12个组件。文章引用Anthropic、OpenAI、LangChain等公司的实践,论证了harness对生产级AI Agent的关键作用。
你的智能体能力取决于其框架。我开源了一个框架,单个函数调用背后集成了40项能力
一个开源智能体框架,单个函数调用背后集成了40项能力,包括持久内存、Docker沙箱、自动摘要、死循环检测、预算上限和实时运行分支(用于分支智能体执行)。基于Pydantic AI构建,旨在替换每个生产级智能体所需的2000行胶水代码。