SearchSwarm:面向长周期深度研究的代理型大语言模型中的委托智能

Hugging Face Daily Papers 论文

摘要

本文介绍了SearchSwarm,一个基于合成委托智能训练的模型,通过任务分解和子代理协调来改进长周期深度研究任务,在BrowseComp基准测试中取得了最先进的结果。

大型语言模型日益需要处理复杂的、长期的实际任务,这些任务的上下文需求可能无限增长,而模型的上下文窗口本质上是有限的。最近的研究探索了一种范式,其中主代理分解任务并将子任务分派给子代理,子代理执行并仅返回总结结果,从而节省主代理的上下文预算。然而,要做好这一点需要委托智能:分解复杂任务、确定何时及委托什么、并将返回的结果整合到持续工作流中的能力。这种能力的训练数据在自然文本中稀缺,据我们所知,如何合成此类数据并训练模型获得这种能力,在开源社区中仍未得到充分探索。为弥补这一差距,我们针对深度研究这一代表性的长周期代理任务进行了初步探索。具体来说,我们设计了一个引导框架,指导模型进行高质量的任务分解和委托,同时约束子代理正确返回结果以支持主代理的工作流。引导框架生成的轨迹自然编码了正确的委托决策,我们将其作为监督微调数据,将委托智能内化到模型权重中。我们最终的模型SearchSwarm-30B-A3B在BrowseComp上达到68.1,在BrowseComp-ZH上达到73.3,是所有同等规模模型中最好的结果。我们将发布我们的引导框架、模型权重和训练数据,以促进未来的研究。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - SearchSwarm: 在长周期深度研究任务中实现代理型LLM的委托智能

来源:https://huggingface.co/papers/2606.09730

摘要

一个基于合成委托智能训练的大语言模型,通过任务分解与子代理协调,在长周期研究任务上取得了卓越表现。

大语言模型(https://huggingface.co/papers?q=Large%20language%20models)日益被期望处理复杂、长周期的现实世界任务——这些任务的上下文需求可能无限增长,然而模型上下文窗口(https://huggingface.co/papers?q=context%20windows)本质上是有限的。近期研究探索了一种范式:主代理分解任务并将子任务分派给子代理(https://huggingface.co/papers?q=subagents),子代理执行后仅返回汇总结果,从而节省主代理的上下文预算。然而,要做好这一点需要委托智能(https://huggingface.co/papers?q=delegation%20intelligence):即分解复杂任务、判断何时委托以及委托什么、并将返回结果整合到持续工作流中的能力。自然出现的文本中这种能力的训练数据非常稀缺,据我们所知,如何合成这类数据并训练模型获得这种能力,在开源社区中仍鲜有探索。为填补这一空白,我们以深度研究(一种典型的长周期代理任务)为目标进行了初步探索。具体来说,我们设计了一套引导工具(harness),指导模型进行高质量的任务分解(https://huggingface.co/papers?q=task%20decomposition)与委托,同时约束子代理(https://huggingface.co/papers?q=subagents)正确返回结果以支持主代理的工作流。引导工具产生的轨迹自然编码了正确的委托决策,我们将这些轨迹作为监督微调(https://huggingface.co/papers?q=supervised%20fine-tuning)数据,将委托智能(https://huggingface.co/papers?q=delegation%20intelligence)内化到模型权重中。由此得到的模型 SearchSwarm-30B-A3B(https://huggingface.co/papers?q=SearchSwarm-30B-A3B)在 BrowseComp(https://huggingface.co/papers?q=BrowseComp)上达到 68.1,在 BrowseComp-ZH(https://huggingface.co/papers?q=BrowseComp-ZH)上达到 73.3,在所有同等规模模型中表现最佳。我们将公开发布引导工具、模型权重和训练数据,以促进未来研究。

查看 arXiv 页面(https://arxiv.org/abs/2606.09730)
查看 PDF(https://arxiv.org/pdf/2606.09730)
项目页面(https://search-swarm.github.io/)
GitHub(https://github.com/Search-Swarm/SearchSwarm)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09730)

在您的代理中获取这篇论文:

hf papers read 2606.09730

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.09730,以便从本页面链接它。

引用该论文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.09730,以便从本页面链接它。

引用该论文的 Space 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.09730,以便从本页面链接它。

包含该论文的收藏集 0

没有收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便从本页面链接它。

相似文章

AgentJet:一个面向智能体强化学习的灵活群组训练框架

arXiv cs.AI

AgentJet 是一个面向大语言模型智能体强化学习的分布式群组训练框架,它将智能体运行与模型优化解耦,支持异构多智能体强化学习、多任务训练、容错以及实时代码迭代,训练速度提升1.5-10倍。该框架还引入了一个自动化研究系统,能够在大型集群上自主进行为期数天的强化学习研究。

长周期研究智能体的搜索纪律

arXiv cs.AI

本文识别了长周期研究智能体中的一种失败模式:优化聚合指标可能选出提升核心数字但破坏关键子群体(反转)的候选项。它提出了一种搜索纪律协议,该协议使用一个外部控制环路,基于候选项的分解行为而非得分进行审计。