扩展视野而非参数：以35B智能体达到万亿参数性能

Hugging Face Daily Papers 2026/06/29 00:00 论文

mixture-of-experts agentic-model long-horizon trajectory-scaling distillation benchmark

摘要

介绍了Agents-A1，一个35B混合专家智能体模型，通过长视野轨迹缩放和三阶段训练方法（包括SFT、领域级教师和多教师蒸馏）实现了万亿参数级别的性能。在长视野智能体基准测试中，该模型表现优于或媲美更大规模的模型。

我们推出了Agents-A1，一个35B混合专家智能体模型，通过扩展智能体视野达到万亿参数级别的性能。我们从两个角度研究智能体视野缩放：扩展长视野轨迹和扩展异构智能体能力。为此，我们构建了一个长视野知识-行动基础设施，连接外部知识、行动、观察和验证器结果，生成平均长度为45K Token的智能体轨迹。基于此，我们采用三阶段方案训练Agents-A1。首先，进行全领域监督微调，使基础模型对齐广泛的智能体行为。其次，训练领域级教师模型，捕获每个领域的专业知识。第三，我们提出多教师领域路由在线策略蒸馏与显著词汇对齐，以提高不同领域间的知识迁移效率，将六个异构领域统一到一个可部署的学生模型中。Agents-A1在长视野智能体基准测试中表现出强大且广泛的能力。与1T参数模型（如Kimi-K2.6和DeepSeek-V4-pro）相比，Agents-A1在SEAL-0（56.4）、IFBench（80.6）、HiPhO（46.4）、FrontierScience-Olympiad（79.0）和MolBench-Bind（56.8）上取得领先结果，并在SciCode（44.3）、HLE（47.6）和BrowseComp（75.5）上保持高度竞争力。我们希望这项工作能为社区提供一条实用路径，即使用35B智能体在长视野任务中达到或匹配1T模型的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/30 03:33

论文页面 - 扩展视野而非参数：35B智能体实现万亿参数级性能

来源：https://huggingface.co/papers/2606.30616 发布于 6月29日

#1 今日论文 (https://huggingface.co/papers/date/2026-06-30) 作者：（保留英文作者名，此处因原文未列出具体姓名，保持空白）

摘要

Agents-A1，一个35B参数的混合专家智能体模型，通过长程轨迹缩放和异构智能体能力缩放，在万亿参数级别上实现了同等性能。这得益于一种三阶段训练方法，包括监督微调、领域级教师模型和多教师蒸馏。

我们介绍Agents-A1，一个35B参数的混合专家 (https://huggingface.co/papers?q=Mixture-of-Experts) 智能体模型 (https://huggingface.co/papers?q=Agentic%20Model)，通过扩展智能体视野 (https://huggingface.co/papers?q=agent%20horizon) 达到了万亿参数级性能。我们从两个角度研究智能体视野缩放：扩展长程轨迹 (https://huggingface.co/papers?q=long-horizon%20trajectories) 和扩展异构智能体能力 (https://huggingface.co/papers?q=heterogeneous%20agent%20abilities)。为支持这一目标，我们构建了一个长程知识-动作基础设施 (https://huggingface.co/papers?q=knowledge-action%20infrastructure)，连接外部知识、动作、观察和验证器输出，生成平均长度为45K token的智能体轨迹 (https://huggingface.co/papers?q=agentic%20trajectories)。在此基础上，我们通过三阶段流程训练Agents-A1。首先，我们进行全领域监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning)，使基础模型对齐广泛的智能体行为。其次，我们训练领域级教师模型 (https://huggingface.co/papers?q=domain-level%20teacher%20models)，以捕获每个领域的专业技能。第三，我们提出一种多教师领域路由在线蒸馏 (https://huggingface.co/papers?q=multi-teacher%20domain-routed%20on-policy%20distillation) 方法，结合显著词汇对齐 (https://huggingface.co/papers?q=salient%20vocabulary%20alignment)，提高跨领域的知识传输效率，将六个异构领域统一到一个可部署的学生模型中。Agents-A1在长程智能体基准测试中取得了强劲而广泛的表现。与1T参数模型（如Kimi-K2.6和DeepSeek-V4-pro）相比，Agents-A1在SEAL-0 (56.4)、IFBench (80.6)、HiPhO (46.4)、FrontierScience-Olympiad (79.0) 和 MolBench-Bind (56.8) 上取得了领先结果，并在SciCode (44.3)、HLE (47.6) 和 BrowseComp (75.5) 上保持高度竞争力。我们希望这项工作为社区提供一条实用路径，使用35B智能体扩展视野，在长程任务上达到或匹配1T模型的性能。

查看arXiv页面 (https://arxiv.org/abs/2606.30616) 查看PDF (https://arxiv.org/pdf/2606.30616) 项目页面 (https://internscience.github.io/Agents-A1/) GitHub34 (https://github.com/InternScience/Agents-A1) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30616)

在你的智能体中获取这篇论文：

hf papers read 2606\.30616

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型1

InternScience/Agents-A1 文本生成 • 35B • 更新于42分钟前 • 55 • 18 (https://huggingface.co/InternScience/Agents-A1)

引用该论文的数据集0

没有链接此论文的数据集

在数据集的README.md中引用arxiv.org/abs/2606.30616即可从此页面链接。

引用该论文的Space0

没有链接此论文的Space

在Space的README.md中引用arxiv.org/abs/2606.30616即可从此页面链接。

包含该论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

InternScience/Agents-A1 · Hugging Face

Reddit r/LocalLLaMA

Agents-A1 是 InternScience 推出的 35B 参数混合专家（MoE）智能体模型，通过长程轨迹缩放和多教师多领域蒸馏技术，在与 GPT-5.5 和 DeepSeek-V4-pro 等前沿规模系统的对比中展现出具有竞争力的性能。

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源：[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua