@dair_ai: // 状态外部化框架 // 关于如何有效构建代理和框架的一种新范式正在兴起。如果……

X AI KOLs Following 论文

摘要

Harness-1 引入了一种状态外部化框架,将常规记账与搜索代理中的策略决策分离,使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。

// 状态外部化框架 // 关于如何有效构建代理和框架的一种新范式正在兴起。 如果环境能够可靠地维护某个状态,那么该状态很可能不应属于策略内部。将其移入框架中,一个 20B 模型就能训练得更好,泛化能力也更强。 搜索代理通常基于不断增长的对话记录在一个策略上进行训练,因此强化学习必须同时学习语义搜索和常规记账。而 Harness-1 模型则将这两者分离开来。 框架将工作记忆(候选池、证据链接、验证记录、去重观测、预算感知上下文)保持在策略之外,而 20B 模型仅决定搜索什么、保留什么、验证什么以及何时停止。 在涵盖网络、金融、专利和多跳问答的八个检索基准上,它达到了 0.730 的平均精选召回率,比次优的开放搜索代理高出 11.4 个百分点,并与更大的前沿搜索器保持竞争力。在保留的迁移测试中增益最大。 论文:https://arxiv.org/abs/2606.02373 在我们的学院中学习如何构建有效的 AI 代理:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:47

// 状态外化框架 //

一种构建智能代理与框架的新范式正在浮现。

如果环境能够可靠地维护某种状态,那么这种状态很可能不应归属于策略内部。将其移入框架中,一个200亿参数的模型就能训练得更好,泛化能力也更强。

搜索代理通常基于一个不断增长的对话记录进行单一策略训练,因此强化学习必须同时学习语义搜索和常规性记账任务。而本文提出的模型Harness-1将两者分离开来。

该框架将工作记忆(候选池、证据链接、验证记录、去重后的观察、预算感知的上下文)保留在策略之外,200亿参数的模型仅需决定搜索什么、保留什么、验证什么以及何时停止。

在涵盖网页、金融、专利和多跳问答等领域的八个检索基准测试中,Harness-1的平均精选召回率达到0.730,领先次优开源搜索代理11.4个百分点,并与规模大得多的前沿模型搜索器保持竞争力。其性能提升在留出迁移任务上最为显著。

论文:https://arxiv.org/abs/2606.02373

在我们的学院中学习构建高效的AI代理:https://academy.dair.ai


Harness-1:基于状态外化框架的搜索代理强化学习

来源:https://arxiv.org/abs/2606.02373 查看PDF (https://arxiv.org/pdf/2606.02373)

摘要:搜索代理通常被训练为基于不断增长的对话记录执行策略:模型必须决定如何进行搜索,同时还要记住它已经看到的内容、哪些证据是有用的、哪些约束条件尚未满足、哪些声明实际上已被验证。我们认为这种形式将过多的常规状态管理负担放在了策略内部:强化学习被迫同时优化语义搜索决策和本可由环境更可靠地维护的、可恢复的记账任务。我们提出了Harness-1,一个200亿参数的搜索代理(检索子代理),它在有状态搜索框架内使用强化学习进行训练。该框架维护环境侧的工作记忆,包括候选池、重要性标记的精选集、紧凑的证据链接、验证记录、压缩和去重后的观察,以及预算感知的上下文渲染。策略则保留了语义决策:搜索什么、保留或丢弃哪些文档、验证什么以及何时停止。在涵盖网页、金融、专利和多跳问答等领域的八个检索基准测试中,Harness-1的平均精选召回率达到0.730,领先次优开源搜索子代理11.4个百分点,并与规模大得多的前沿模型搜索器保持竞争力。其性能提升在留出迁移基准上尤为突出,这表明在显式搜索状态上进行强化学习可以产生超越训练领域的检索行为。我们的代码可在以下链接获取:https://github.com/pat-jj/harness-1。

提交历史

来自:彭程江 查看电子邮件 [v1] 2026年6月1日星期一 15:21:41 UTC(6,831 KB)

相似文章

@Potatoloogs: https://x.com/Potatoloogs/status/2057391224592667051

X AI KOLs Timeline

本文深度拆解了Agent Harness的概念,即包裹在LLM外部的工程基础设施,包括编排循环、工具调用、记忆系统、上下文管理等12个组件。文章引用Anthropic、OpenAI、LangChain等公司的实践,论证了harness对生产级AI Agent的关键作用。