通过持续预训练扩展智能体
摘要
提出智能体持续预训练(Agentic Continual Pre-training)来构建智能体基础模型,在10个基准测试上使用AgentFounder-30B取得了最先进的结果,包括在BrowseComp-en上达到39.9%,在BrowseComp-zh上达到43.3%。
查看缓存全文
缓存时间: 2026/06/01 13:01
论文页面 - 通过持续预训练扩展智能体
来源:https://huggingface.co/papers/2509.13310
发布于 2025 年 9 月 16 日
#1 今日论文 (https://huggingface.co/papers/date/2025-09-17)
作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
AgentFounder,一个结合了智能体持续预训练的深度研究智能体模型,在智能体任务中实现了最先进的性能,同时保持了强大的工具使用能力。
大型语言模型 (https://huggingface.co/papers?q=Large%20language%20models) (LLM) 已演变为能够在复杂问题求解中自主使用工具 (https://huggingface.co/papers?q=autonomous%20tool%20use) 并进行多步推理 (https://huggingface.co/papers?q=multi-step%20reasoning) 的智能体系统 (https://huggingface.co/papers?q=agentic%20systems) 。然而,基于通用基础模型的后训练方法 (https://huggingface.co/papers?q=post-training%20approaches) 在智能体任务中始终表现不佳,尤其是在开源实现中。我们找到了根本原因:缺乏强大的智能体基础模型,导致模型在后训练过程中必须同时学习多种智能体行为并将其与专家示范对齐,从而产生了根本性的优化矛盾。为此,我们首次提出将智能体持续预训练 (https://huggingface.co/papers?q=Agentic%20Continual%20Pre-training) (Agentic CPT) 纳入深度研究智能体 (https://huggingface.co/papers?q=deep%20research%20agents) 的训练流程,以构建强大的智能体基础模型。基于该方法,我们开发了一个名为 AgentFounder (https://huggingface.co/papers?q=AgentFounder) 的深度研究智能体模型。我们在 10 个基准上评估了我们的 AgentFounder (https://huggingface.co/papers?q=AgentFounder)-30B,取得了最先进的性能,同时保持了强大的工具使用能力,尤其在 BrowseComp-en (https://huggingface.co/papers?q=BrowseComp-en) 上达到 39.9%,在 BrowseComp-zh (https://huggingface.co/papers?q=BrowseComp-zh) 上达到 43.3%,在 HLE (https://huggingface.co/papers?q=HLE) 上达到 31.5% Pass@1。
查看 arXiv 页面 (https://arxiv.org/abs/2509.13310)
查看 PDF (https://arxiv.org/pdf/2509.13310)
项目页面 (https://tongyi-agent.github.io/blog/)
GitHub 19.1k (https://github.com/Alibaba-NLP/DeepResearch)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2509.13310)
在你的智能体中获取此论文:
hf papers read 2509\.13310
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2509.13310 即可从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2509.13310 即可从此页面链接。
引用此论文的 Space 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2509.13310 即可从此页面链接。
包含此论文的收藏集 19
浏览包含此论文的 19 个收藏集 (https://huggingface.co/collections?paper=2509.13310)
相似文章
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
扩展视野而非参数:以35B智能体达到万亿参数性能
介绍了Agents-A1,一个35B混合专家智能体模型,通过长视野轨迹缩放和三阶段训练方法(包括SFT、领域级教师和多教师蒸馏)实现了万亿参数级别的性能。在长视野智能体基准测试中,该模型表现优于或媲美更大规模的模型。
观点:Agentic AI系统是实现AGI的可预见路径
本文认为,单一模型的单体型扩展不足以实现AGI,并提出具有多智能体协作的Agentic AI是必要的范式,理论上证明了代理系统在泛化和样本效率上具有指数级优势。
将本地代理转变为自我优化代理
一个自我优化的智能体管线,在TerminalBench上将基准性能从约30%提升至约90%,并且可以通过记录交互、使用本地模型进行反思、以及将经验注入未来的系统提示中,扩展应用到日常对话场景。
@KaiZhang_CS: 看看由 @jianxie_ 训练的最佳开源搜索代理之一!!很高兴看到早期经验方法在……
Yu Su 的团队在有限的学术预算下训练了一个前沿的 Deep Research Agent,使用 8K 合成样本和强化学习,并发布了完全开放的训练基础设施和从 2B 到 35B 参数的模型。