扩展视野而非参数:以35B智能体达到万亿参数性能
摘要
介绍了Agents-A1,一个35B混合专家智能体模型,通过长视野轨迹缩放和三阶段训练方法(包括SFT、领域级教师和多教师蒸馏)实现了万亿参数级别的性能。在长视野智能体基准测试中,该模型表现优于或媲美更大规模的模型。
查看缓存全文
缓存时间: 2026/06/30 03:33
论文页面 - 扩展视野而非参数:35B智能体实现万亿参数级性能
来源:https://huggingface.co/papers/2606.30616 发布于 6月29日
#1 今日论文 (https://huggingface.co/papers/date/2026-06-30) 作者: (保留英文作者名,此处因原文未列出具体姓名,保持空白)
摘要
Agents-A1,一个35B参数的混合专家智能体模型,通过长程轨迹缩放和异构智能体能力缩放,在万亿参数级别上实现了同等性能。这得益于一种三阶段训练方法,包括监督微调、领域级教师模型和多教师蒸馏。
我们介绍Agents-A1,一个35B参数的混合专家 (https://huggingface.co/papers?q=Mixture-of-Experts) 智能体模型 (https://huggingface.co/papers?q=Agentic%20Model),通过扩展智能体视野 (https://huggingface.co/papers?q=agent%20horizon) 达到了万亿参数级性能。我们从两个角度研究智能体视野缩放:扩展长程轨迹 (https://huggingface.co/papers?q=long-horizon%20trajectories) 和扩展异构智能体能力 (https://huggingface.co/papers?q=heterogeneous%20agent%20abilities)。为支持这一目标,我们构建了一个长程知识-动作基础设施 (https://huggingface.co/papers?q=knowledge-action%20infrastructure),连接外部知识、动作、观察和验证器输出,生成平均长度为45K token的智能体轨迹 (https://huggingface.co/papers?q=agentic%20trajectories)。在此基础上,我们通过三阶段流程训练Agents-A1。首先,我们进行全领域监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning),使基础模型对齐广泛的智能体行为。其次,我们训练领域级教师模型 (https://huggingface.co/papers?q=domain-level%20teacher%20models),以捕获每个领域的专业技能。第三,我们提出一种多教师领域路由在线蒸馏 (https://huggingface.co/papers?q=multi-teacher%20domain-routed%20on-policy%20distillation) 方法,结合显著词汇对齐 (https://huggingface.co/papers?q=salient%20vocabulary%20alignment),提高跨领域的知识传输效率,将六个异构领域统一到一个可部署的学生模型中。Agents-A1在长程智能体基准测试中取得了强劲而广泛的表现。与1T参数模型(如Kimi-K2.6和DeepSeek-V4-pro)相比,Agents-A1在SEAL-0 (56.4)、IFBench (80.6)、HiPhO (46.4)、FrontierScience-Olympiad (79.0) 和 MolBench-Bind (56.8) 上取得了领先结果,并在SciCode (44.3)、HLE (47.6) 和 BrowseComp (75.5) 上保持高度竞争力。我们希望这项工作为社区提供一条实用路径,使用35B智能体扩展视野,在长程任务上达到或匹配1T模型的性能。
查看arXiv页面 (https://arxiv.org/abs/2606.30616) 查看PDF (https://arxiv.org/pdf/2606.30616) 项目页面 (https://internscience.github.io/Agents-A1/) GitHub34 (https://github.com/InternScience/Agents-A1) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30616)
在你的智能体中获取这篇论文:
hf papers read 2606\.30616
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型1
InternScience/Agents-A1 文本生成 • 35B • 更新于42分钟前 • 55 • 18 (https://huggingface.co/InternScience/Agents-A1)
引用该论文的数据集0
没有链接此论文的数据集
在数据集的README.md中引用arxiv.org/abs/2606.30616即可从此页面链接。
引用该论文的Space0
没有链接此论文的Space
在Space的README.md中引用arxiv.org/abs/2606.30616即可从此页面链接。
包含该论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
InternScience/Agents-A1 · Hugging Face
Agents-A1 是 InternScience 推出的 35B 参数混合专家(MoE)智能体模型,通过长程轨迹缩放和多教师多领域蒸馏技术,在与 GPT-5.5 和 DeepSeek-V4-pro 等前沿规模系统的对比中展现出具有竞争力的性能。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
@ModelScope2022: 推出Agents-A1,一个35B参数的MoE智能体模型,专为搜索、工程、科学研究等长周期任务设计…
ModelScope推出Agents-A1,一个35B MoE智能体模型,支持256K上下文和函数调用,在长周期任务和指令遵循上达到SOTA。
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。
@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?
AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。