扩展视野而非参数:以35B智能体达到万亿参数性能

Hugging Face Daily Papers 论文

摘要

介绍了Agents-A1,一个35B混合专家智能体模型,通过长视野轨迹缩放和三阶段训练方法(包括SFT、领域级教师和多教师蒸馏)实现了万亿参数级别的性能。在长视野智能体基准测试中,该模型表现优于或媲美更大规模的模型。

我们推出了Agents-A1,一个35B混合专家智能体模型,通过扩展智能体视野达到万亿参数级别的性能。我们从两个角度研究智能体视野缩放:扩展长视野轨迹和扩展异构智能体能力。为此,我们构建了一个长视野知识-行动基础设施,连接外部知识、行动、观察和验证器结果,生成平均长度为45K Token的智能体轨迹。基于此,我们采用三阶段方案训练Agents-A1。首先,进行全领域监督微调,使基础模型对齐广泛的智能体行为。其次,训练领域级教师模型,捕获每个领域的专业知识。第三,我们提出多教师领域路由在线策略蒸馏与显著词汇对齐,以提高不同领域间的知识迁移效率,将六个异构领域统一到一个可部署的学生模型中。Agents-A1在长视野智能体基准测试中表现出强大且广泛的能力。与1T参数模型(如Kimi-K2.6和DeepSeek-V4-pro)相比,Agents-A1在SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和MolBench-Bind(56.8)上取得领先结果,并在SciCode(44.3)、HLE(47.6)和BrowseComp(75.5)上保持高度竞争力。我们希望这项工作能为社区提供一条实用路径,即使用35B智能体在长视野任务中达到或匹配1T模型的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/30 03:33

论文页面 - 扩展视野而非参数:35B智能体实现万亿参数级性能

来源:https://huggingface.co/papers/2606.30616 发布于 6月29日

#1 今日论文 (https://huggingface.co/papers/date/2026-06-30) 作者: (保留英文作者名,此处因原文未列出具体姓名,保持空白)

摘要

Agents-A1,一个35B参数的混合专家智能体模型,通过长程轨迹缩放和异构智能体能力缩放,在万亿参数级别上实现了同等性能。这得益于一种三阶段训练方法,包括监督微调、领域级教师模型和多教师蒸馏。

我们介绍Agents-A1,一个35B参数的混合专家 (https://huggingface.co/papers?q=Mixture-of-Experts) 智能体模型 (https://huggingface.co/papers?q=Agentic%20Model),通过扩展智能体视野 (https://huggingface.co/papers?q=agent%20horizon) 达到了万亿参数级性能。我们从两个角度研究智能体视野缩放:扩展长程轨迹 (https://huggingface.co/papers?q=long-horizon%20trajectories) 和扩展异构智能体能力 (https://huggingface.co/papers?q=heterogeneous%20agent%20abilities)。为支持这一目标,我们构建了一个长程知识-动作基础设施 (https://huggingface.co/papers?q=knowledge-action%20infrastructure),连接外部知识、动作、观察和验证器输出,生成平均长度为45K token的智能体轨迹 (https://huggingface.co/papers?q=agentic%20trajectories)。在此基础上,我们通过三阶段流程训练Agents-A1。首先,我们进行全领域监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning),使基础模型对齐广泛的智能体行为。其次,我们训练领域级教师模型 (https://huggingface.co/papers?q=domain-level%20teacher%20models),以捕获每个领域的专业技能。第三,我们提出一种多教师领域路由在线蒸馏 (https://huggingface.co/papers?q=multi-teacher%20domain-routed%20on-policy%20distillation) 方法,结合显著词汇对齐 (https://huggingface.co/papers?q=salient%20vocabulary%20alignment),提高跨领域的知识传输效率,将六个异构领域统一到一个可部署的学生模型中。Agents-A1在长程智能体基准测试中取得了强劲而广泛的表现。与1T参数模型(如Kimi-K2.6和DeepSeek-V4-pro)相比,Agents-A1在SEAL-0 (56.4)、IFBench (80.6)、HiPhO (46.4)、FrontierScience-Olympiad (79.0) 和 MolBench-Bind (56.8) 上取得了领先结果,并在SciCode (44.3)、HLE (47.6) 和 BrowseComp (75.5) 上保持高度竞争力。我们希望这项工作为社区提供一条实用路径,使用35B智能体扩展视野,在长程任务上达到或匹配1T模型的性能。

查看arXiv页面 (https://arxiv.org/abs/2606.30616) 查看PDF (https://arxiv.org/pdf/2606.30616) 项目页面 (https://internscience.github.io/Agents-A1/) GitHub34 (https://github.com/InternScience/Agents-A1) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30616)

在你的智能体中获取这篇论文:

hf papers read 2606\.30616

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型1

InternScience/Agents-A1 文本生成 • 35B • 更新于42分钟前 • 55 • 18 (https://huggingface.co/InternScience/Agents-A1)

引用该论文的数据集0

没有链接此论文的数据集

在数据集的README.md中引用arxiv.org/abs/2606.30616即可从此页面链接。

引用该论文的Space0

没有链接此论文的Space

在Space的README.md中引用arxiv.org/abs/2606.30616即可从此页面链接。

包含该论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

InternScience/Agents-A1 · Hugging Face

Reddit r/LocalLLaMA

Agents-A1 是 InternScience 推出的 35B 参数混合专家(MoE)智能体模型,通过长程轨迹缩放和多教师多领域蒸馏技术,在与 GPT-5.5 和 DeepSeek-V4-pro 等前沿规模系统的对比中展现出具有竞争力的性能。

Agent-World:面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

TMAS:通过多智能体协同扩展测试时计算

Hugging Face Daily Papers

TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。

@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?

X AI KOLs Following

AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。