InternScience/Agents-A1 · Hugging Face
摘要
Agents-A1 是 InternScience 推出的 35B 参数混合专家(MoE)智能体模型,通过长程轨迹缩放和多教师多领域蒸馏技术,在与 GPT-5.5 和 DeepSeek-V4-pro 等前沿规模系统的对比中展现出具有竞争力的性能。
查看缓存全文
缓存时间: 2026/06/30 07:39
InternScience/Agents-A1 · Hugging Face
来源:https://huggingface.co/InternScience/Agents-A1
https://huggingface.co/InternScience/Agents-A1#agents-a1-scaling-the-horizon-not-the-parameters-reaching-trillion-parameter-performance-with-a-35b-agentAgents-A1:扩展视野而非参数——用35B智能体达到万亿参数性能
本仓库包含 Agents-A1 模型权重和 Hugging Face Transformers 格式的配置文件。这些工件兼容 Hugging Face Transformers、vLLM、SGLang 等。
Agents-A1 是来自 InternScience(https://huggingface.co/InternScience)的 35B 混合专家智能体模型,旨在跨多个领域扩展异构智能体能力,包括长期搜索、工程、科学研究、指令遵循和工具调用。我们从两个角度研究智能体视野扩展:扩展长期轨迹和扩展异构智能体能力。
从长期轨迹扩展来看,Agents-A1 在领域基础的知识-行动基础设施辅助下进行训练,该基础设施共同构建行动、观察和验证器结果,将智能体的过程转化为可训练目标。从异构智能体能力扩展来看,Agents-A1 提出了一种三阶段训练范式,用于构建可扩展的通用智能体模型。首先,我们进行全领域监督微调,使基础模型与广泛的智能体行为对齐。其次,我们训练领域级教师模型,以捕捉各领域的专业知识。第三,我们提出多教师多领域在线策略蒸馏,结合异构感知优化,以提高跨领域知识迁移效率。
Agents-A1 基准测试概览(https://huggingface.co/InternScience/Agents-A1/blob/main/figures/a1_benchmarks_altair_grid.svg)
https://huggingface.co/InternScience/Agents-A1#highlights亮点
- 智能体推理:Agents-A1 擅长将复杂任务分解为可执行的子步骤,提前规划,并根据中间结果调整策略。
- 工具使用:原生支持函数调用和工具集成,能够与 API、代码解释器、搜索引擎和其他外部工具无缝交互。
- 科学与专业推理:处理集成工具的科学推理和专业知识问答。
- 指令遵循:精确遵循跨多个领域的详细、多约束指令。
我们欢迎开发者和企业集成并尝试 Agents-A1,分享反馈。
https://huggingface.co/InternScience/Agents-A1#performance性能
我们在真实世界智能体和研究导向的工作流中评估 Agents-A1,涵盖六个方向——长期搜索、工程任务、科学研究、指令遵循、通用智能体任务和科学智能体任务。尽管属于约 35B 模型类别,Agents-A1 在多个基准上与前沿规模系统(如 GPT-5.5、DeepSeek-V4-pro 和 Kimi-K2.6)相比展现出极具竞争力的性能。它在若干挑战性基准上取得了整体 SOTA 结果,包括 Seal-0(56.4)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)、FrontierScience-Research(40.00)、IFBench(80.6)和 IFEval(94.8),同时在广泛任务上位居同类模型最佳,例如 BrowseComp(75.5)、XBench-DS-2510(86.0)、GAIA(96.0)、SciCode(44.3)、带工具的 HLE(47.6)和 MolBench-bind(56.8)。这些结果表明 Agents-A1 结合了强大的长期搜索能力、稳健的科学推理和可靠的指令遵循,成为一个高效且强大的智能体模型,缩小了与更大规模前沿模型的差距。
🥇 整体 SOTA 🟢 同类模型(约 35B)中最佳
| 基准📏 | 同类模型(约 35B) | 更大规模模型🚀 | 我们的模型⭐ | ||||
|---|---|---|---|---|---|---|---|
| Qwen3.5-35B-A3B | Qwen3.6-35B-A3B | Nex-N2-mini | Step-3.5-Flash | Kimi-K2.6 | DeepSeek-V4-pro(Max) | GPT-5.5(xhigh) | |
| 🔍 长期搜索 | |||||||
| BrowseComp | 61.0 | 67.9 | 37 | 4.1 | 69.0 | 83.2 | 83.4 |
| XBench-DS-2510 | 77.0 | 71.0 | 82.0 | 56.3 | 🥇 90.0 | 🥇 90.0 | 84.0 |
| Seal0 | 41.4 | 38.7 | 44 | 9.5 | 36.9 | 45 | 0.4 |
| GAIA | 59.8 | 78.6 | 48 | 2.5 | 84.5 | 80.5 | 8 |
| ⚙️ 工程任务 | |||||||
| SciCode | 37.7 | 35.8 | 29.9 | 40.4 | 53.5 | 50.0 | 🥇 56.1 |
| MLE-Lite | 24.2 | 34.8 | 34.8 | 54.5 | 62.1 | 63.6 | 🥇 72.7 |
| 🧪 科学研究 | |||||||
| HLE 带工具 | 47.4 | 36.2 | 32.0 | 23.1 | 🥇 54.0 | 48.2 | 52.2 |
| HiPhO | 37.0 | 37.7 | 38.5 | 38.3 | 41.1 | 38.7 | 43.3 |
| FrontierScience-Olympiad | 64.5 | 60.3 | 52.0 | 61.0 | 73.0 | 76.0 | 78.0 |
| FrontierScience-Research | 2.5 | 2.9 | 5.0 | 6.7 | 17.9 | 13.3 | 26.7 |
| 📋 指令遵循 | |||||||
| IFBench | 70.2 | 64.4 | 54.0 | 86 | 4.6 | 71.7 | 73.4 |
| LongBench-v2 | 59.0 | 57.7 | 59.6 | 57.5 | 62.0 | 🥇 64.3 | - |
| IFEval | 91.9 | 91.3 | 88.4 | 93.5 | 39 | 4.4 | 59 |
| 🤖 通用智能体任务 | |||||||
| τ2-Bench | 🟢 81.2 | 79.0 | 74.5 | 37 | 5.7 | 78 | 1.9 |
| VitaBench | 31.9 | 35.6 | 23.0 | 30.0 | 35.6 | 3 | 🥇 49.0 |
| 🔬 科学智能体任务 | |||||||
| MatTools | 21.0 | 15.9 | 34.1 | 44.9 | 63.8 | 47.1 | 🥇 68.8 |
| MolBench-bind | 46.0 | 48.7 | 51.4 | 45.9 | 52 | 1.6 | 37.8 |
https://huggingface.co/InternScience/Agents-A1#usage使用
https://huggingface.co/InternScience/Agents-A1#sglangSGLang
SGLang(https://github.com/sgl-project/sglang)是一个用于大型语言模型和视觉语言模型的快速推理框架。
使用 uv 安装 SGLang:
`` uv venv –python 3.12 –seed –managed-python source .venv/bin/activate
uv pip install sglang ``
更多详情请参阅其文档(https://docs.sglang.ai/get_started/install.html)。
以下命令在 http://localhost:8000/v1 创建 API 端点:
-
标准版(1 GPU,262K 上下文):
python -m sglang.launch_server \ --model-path InternScience/Agents-A1 \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 262144 \ --reasoning-parser qwen3 -
工具使用:
python -m sglang.launch_server \ --model-path InternScience/Agents-A1 \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 262144 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder
https://huggingface.co/InternScience/Agents-A1#vllmvLLM
vLLM(https://github.com/vllm-project/vllm)是一个高吞吐、内存高效的 LLM 推理和服务引擎。
通过 uv 从主分支安装 vLLM:
`` uv venv –python 3.12 –seed –managed-python source .venv/bin/activate
uv pip install vllm –torch-backend=auto ``
更多详情请参阅其文档(https://docs.vllm.ai/en/stable/getting_started/installation/index.html)。
以下命令在 http://localhost:8000/v1 创建 API 端点:
-
标准版(1 GPU,262K 上下文):
vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3 -
工具调用:
vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder -
纯文本(跳过视觉编码器以释放 KV 缓存内存):
vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --language-model-only
https://huggingface.co/InternScience/Agents-A1#recommended-sampling-parameters推荐采样参数
为获得最佳生成质量,我们推荐以下采样参数:
temperature:0.85top_p:0.95top_k:20min_p:0.0presence_penalty:1.1repetition_penalty:1.0
https://huggingface.co/InternScience/Agents-A1#agent-capability-evaluation智能体能力评估
为了向社区提供统一的智能体评估代码库以实现公平比较,我们还开源了一个评估框架,用于评估智能体模型的核心能力,包括工具使用和多步推理。评估代码包含在本仓库的 Agents-A1/evaluation(https://github.com/InternScience/Agents-A1/tree/main/evaluation)目录中。
我们使用该框架在标准化且可复现的设置下评估发布的模型。具体来说,模型在一组面向智能体的任务上进行测试,这些任务要求模型理解用户目标、分解复杂指令、必要时与工具或环境交互并生成最终结果。模型卡(https://huggingface.co/InternScience/Agents-A1)中报告的评估结果是使用上述开源框架生成的,以便用户复现实验、在同一协议下比较其他模型,并进一步扩展基准以应对新的智能体场景。(注意: 为确保公平比较,我们报告的是原始技术报告中的基准结果。如果某个模型未报告相应基准结果,我们将使用与自身模型相同的评估协议对其进行评估。)
有关详细的评估脚本、任务定义、指标和复现说明,请参阅评估代码库。
https://huggingface.co/InternScience/Agents-A1#citation引用
如果您认为我们的工作有帮助,欢迎引用。
相似文章
扩展视野而非参数:以35B智能体达到万亿参数性能
介绍了Agents-A1,一个35B混合专家智能体模型,通过长视野轨迹缩放和三阶段训练方法(包括SFT、领域级教师和多教师蒸馏)实现了万亿参数级别的性能。在长视野智能体基准测试中,该模型表现优于或媲美更大规模的模型。
@ModelScope2022: 推出Agents-A1,一个35B参数的MoE智能体模型,专为搜索、工程、科学研究等长周期任务设计…
ModelScope推出Agents-A1,一个35B MoE智能体模型,支持256K上下文和函数调用,在长周期任务和指令遵循上达到SOTA。
Agent S2:一种面向计算机使用智能体的组合式通才-专才框架
Agent S2 是一种新型的计算机使用智能体组合式框架,通过采用混合定位(Mixture-of-Grounding)与主动分层规划(Proactive Hierarchical Planning)技术,在多个基准测试中达到了最先进的性能。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua
@AnandButani:@huggingface 的 ml-intern 太疯狂了,只需一句高层提示(“打造最强科学推理模型”或“碾压医疗基准”)……
Hugging Face 开源的“ml-intern”智能体仅需一句高层提示,即可自动化完成后训练全流程:从文献调研、数据清洗到模型调优。