SearchSwarm:面向长周期深度研究的代理型大语言模型中的委托智能
摘要
本文介绍了SearchSwarm,一个基于合成委托智能训练的模型,通过任务分解和子代理协调来改进长周期深度研究任务,在BrowseComp基准测试中取得了最先进的结果。
查看缓存全文
缓存时间: 2026/06/10 05:45
论文页面 - SearchSwarm: 在长周期深度研究任务中实现代理型LLM的委托智能
来源:https://huggingface.co/papers/2606.09730
摘要
一个基于合成委托智能训练的大语言模型,通过任务分解与子代理协调,在长周期研究任务上取得了卓越表现。
大语言模型(https://huggingface.co/papers?q=Large%20language%20models)日益被期望处理复杂、长周期的现实世界任务——这些任务的上下文需求可能无限增长,然而模型上下文窗口(https://huggingface.co/papers?q=context%20windows)本质上是有限的。近期研究探索了一种范式:主代理分解任务并将子任务分派给子代理(https://huggingface.co/papers?q=subagents),子代理执行后仅返回汇总结果,从而节省主代理的上下文预算。然而,要做好这一点需要委托智能(https://huggingface.co/papers?q=delegation%20intelligence):即分解复杂任务、判断何时委托以及委托什么、并将返回结果整合到持续工作流中的能力。自然出现的文本中这种能力的训练数据非常稀缺,据我们所知,如何合成这类数据并训练模型获得这种能力,在开源社区中仍鲜有探索。为填补这一空白,我们以深度研究(一种典型的长周期代理任务)为目标进行了初步探索。具体来说,我们设计了一套引导工具(harness),指导模型进行高质量的任务分解(https://huggingface.co/papers?q=task%20decomposition)与委托,同时约束子代理(https://huggingface.co/papers?q=subagents)正确返回结果以支持主代理的工作流。引导工具产生的轨迹自然编码了正确的委托决策,我们将这些轨迹作为监督微调(https://huggingface.co/papers?q=supervised%20fine-tuning)数据,将委托智能(https://huggingface.co/papers?q=delegation%20intelligence)内化到模型权重中。由此得到的模型 SearchSwarm-30B-A3B(https://huggingface.co/papers?q=SearchSwarm-30B-A3B)在 BrowseComp(https://huggingface.co/papers?q=BrowseComp)上达到 68.1,在 BrowseComp-ZH(https://huggingface.co/papers?q=BrowseComp-ZH)上达到 73.3,在所有同等规模模型中表现最佳。我们将公开发布引导工具、模型权重和训练数据,以促进未来研究。
查看 arXiv 页面(https://arxiv.org/abs/2606.09730)
查看 PDF(https://arxiv.org/pdf/2606.09730)
项目页面(https://search-swarm.github.io/)
GitHub(https://github.com/Search-Swarm/SearchSwarm)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09730)
在您的代理中获取这篇论文:
hf papers read 2606.09730
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.09730,以便从本页面链接它。
引用该论文的数据集 0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.09730,以便从本页面链接它。
引用该论文的 Space 0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.09730,以便从本页面链接它。
包含该论文的收藏集 0
没有收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便从本页面链接它。
相似文章
AgentJet:一个面向智能体强化学习的灵活群组训练框架
AgentJet 是一个面向大语言模型智能体强化学习的分布式群组训练框架,它将智能体运行与模型优化解耦,支持异构多智能体强化学习、多任务训练、容错以及实时代码迭代,训练速度提升1.5-10倍。该框架还引入了一个自动化研究系统,能够在大型集群上自主进行为期数天的强化学习研究。
SlimSearcher:通过自适应奖励门控训练效率感知的网络代理
SlimSearcher 是一个框架,通过结合帕累托高效轨迹过滤和自适应奖励塑形,提升深度研究代理的效率,在 GAIA、BrowseComp 和 XBenchDeepSearch 等基准测试中,将工具调用轮次减少 17%-58%,同时保持准确率。
@AdamRLucek: 我对代理集群(即工作流)持乐观态度。代理正越来越多地被用于分析整理海量数据……
作者讨论了在规模化处理非结构化数据时,代理集群/工作流的使用日益增长,并指出当并行部署超过30个子代理时,可靠执行会显著下降,同时预告了一种将智能决策与可靠任务执行相结合的解决方案。
委托投票何时击败多数表决?一种基于委托的多样本LLM推理聚合器
论文提出了一种基于委托的聚合器,名为传播代理投票(PPV),它利用字母熵和推理几何改进多样本LLM推理中的多数投票,在MMLU-Pro上取得了收益,无需外部标签或辅助训练。
长周期研究智能体的搜索纪律
本文识别了长周期研究智能体中的一种失败模式:优化聚合指标可能选出提升核心数字但破坏关键子群体(反转)的候选项。它提出了一种搜索纪律协议,该协议使用一个外部控制环路,基于候选项的分解行为而非得分进行审计。