InternScience/Agents-A1 · Hugging Face

Reddit r/LocalLLaMA 模型

摘要

Agents-A1 是 InternScience 推出的 35B 参数混合专家(MoE)智能体模型,通过长程轨迹缩放和多教师多领域蒸馏技术,在与 GPT-5.5 和 DeepSeek-V4-pro 等前沿规模系统的对比中展现出具有竞争力的性能。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/30 07:39

InternScience/Agents-A1 · Hugging Face

来源:https://huggingface.co/InternScience/Agents-A1

https://huggingface.co/InternScience/Agents-A1#agents-a1-scaling-the-horizon-not-the-parameters-reaching-trillion-parameter-performance-with-a-35b-agentAgents-A1:扩展视野而非参数——用35B智能体达到万亿参数性能

本仓库包含 Agents-A1 模型权重和 Hugging Face Transformers 格式的配置文件。这些工件兼容 Hugging Face Transformers、vLLM、SGLang 等。

Agents-A1 是来自 InternScience(https://huggingface.co/InternScience)的 35B 混合专家智能体模型,旨在跨多个领域扩展异构智能体能力,包括长期搜索、工程、科学研究、指令遵循和工具调用。我们从两个角度研究智能体视野扩展:扩展长期轨迹和扩展异构智能体能力。

从长期轨迹扩展来看,Agents-A1 在领域基础的知识-行动基础设施辅助下进行训练,该基础设施共同构建行动、观察和验证器结果,将智能体的过程转化为可训练目标。从异构智能体能力扩展来看,Agents-A1 提出了一种三阶段训练范式,用于构建可扩展的通用智能体模型。首先,我们进行全领域监督微调,使基础模型与广泛的智能体行为对齐。其次,我们训练领域级教师模型,以捕捉各领域的专业知识。第三,我们提出多教师多领域在线策略蒸馏,结合异构感知优化,以提高跨领域知识迁移效率。

Agents-A1 基准测试概览(https://huggingface.co/InternScience/Agents-A1/blob/main/figures/a1_benchmarks_altair_grid.svg)

https://huggingface.co/InternScience/Agents-A1#highlights亮点

  • 智能体推理:Agents-A1 擅长将复杂任务分解为可执行的子步骤,提前规划,并根据中间结果调整策略。
  • 工具使用:原生支持函数调用和工具集成,能够与 API、代码解释器、搜索引擎和其他外部工具无缝交互。
  • 科学与专业推理:处理集成工具的科学推理和专业知识问答。
  • 指令遵循:精确遵循跨多个领域的详细、多约束指令。

我们欢迎开发者和企业集成并尝试 Agents-A1,分享反馈。

https://huggingface.co/InternScience/Agents-A1#performance性能

我们在真实世界智能体和研究导向的工作流中评估 Agents-A1,涵盖六个方向——长期搜索、工程任务、科学研究、指令遵循、通用智能体任务和科学智能体任务。尽管属于约 35B 模型类别,Agents-A1 在多个基准上与前沿规模系统(如 GPT-5.5、DeepSeek-V4-pro 和 Kimi-K2.6)相比展现出极具竞争力的性能。它在若干挑战性基准上取得了整体 SOTA 结果,包括 Seal-0(56.4)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)、FrontierScience-Research(40.00)、IFBench(80.6)和 IFEval(94.8),同时在广泛任务上位居同类模型最佳,例如 BrowseComp(75.5)、XBench-DS-2510(86.0)、GAIA(96.0)、SciCode(44.3)、带工具的 HLE(47.6)和 MolBench-bind(56.8)。这些结果表明 Agents-A1 结合了强大的长期搜索能力、稳健的科学推理和可靠的指令遵循,成为一个高效且强大的智能体模型,缩小了与更大规模前沿模型的差距。

🥇 整体 SOTA 🟢 同类模型(约 35B)中最佳

基准📏同类模型(约 35B)更大规模模型🚀我们的模型⭐
Qwen3.5-35B-A3BQwen3.6-35B-A3BNex-N2-miniStep-3.5-FlashKimi-K2.6DeepSeek-V4-pro(Max)GPT-5.5(xhigh)
🔍 长期搜索
BrowseComp61.067.9374.169.083.283.4
XBench-DS-251077.071.082.056.3🥇 90.0🥇 90.084.0
Seal041.438.7449.536.9450.4
GAIA59.878.6482.584.580.58
⚙️ 工程任务
SciCode37.735.829.940.453.550.0🥇 56.1
MLE-Lite24.234.834.854.562.163.6🥇 72.7
🧪 科学研究
HLE 带工具47.436.232.023.1🥇 54.048.252.2
HiPhO37.037.738.538.341.138.743.3
FrontierScience-Olympiad64.560.352.061.073.076.078.0
FrontierScience-Research2.52.95.06.717.913.326.7
📋 指令遵循
IFBench70.264.454.0864.671.773.4
LongBench-v259.057.759.657.562.0🥇 64.3-
IFEval91.991.388.493.5394.459
🤖 通用智能体任务
τ2-Bench🟢 81.279.074.5375.7781.9
VitaBench31.935.623.030.035.63🥇 49.0
🔬 科学智能体任务
MatTools21.015.934.144.963.847.1🥇 68.8
MolBench-bind46.048.751.445.9521.637.8

https://huggingface.co/InternScience/Agents-A1#usage使用

https://huggingface.co/InternScience/Agents-A1#sglangSGLang

SGLang(https://github.com/sgl-project/sglang)是一个用于大型语言模型和视觉语言模型的快速推理框架。

使用 uv 安装 SGLang:

`` uv venv –python 3.12 –seed –managed-python source .venv/bin/activate

uv pip install sglang ``

更多详情请参阅其文档(https://docs.sglang.ai/get_started/install.html)。

以下命令在 http://localhost:8000/v1 创建 API 端点:

  • 标准版(1 GPU,262K 上下文): python -m sglang.launch_server \ --model-path InternScience/Agents-A1 \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 262144 \ --reasoning-parser qwen3

  • 工具使用python -m sglang.launch_server \ --model-path InternScience/Agents-A1 \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 262144 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder

https://huggingface.co/InternScience/Agents-A1#vllmvLLM

vLLM(https://github.com/vllm-project/vllm)是一个高吞吐、内存高效的 LLM 推理和服务引擎。

通过 uv 从主分支安装 vLLM:

`` uv venv –python 3.12 –seed –managed-python source .venv/bin/activate

uv pip install vllm –torch-backend=auto ``

更多详情请参阅其文档(https://docs.vllm.ai/en/stable/getting_started/installation/index.html)。

以下命令在 http://localhost:8000/v1 创建 API 端点:

  • 标准版(1 GPU,262K 上下文): vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3

  • 工具调用vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder

  • 纯文本(跳过视觉编码器以释放 KV 缓存内存)vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --language-model-only

https://huggingface.co/InternScience/Agents-A1#recommended-sampling-parameters推荐采样参数

为获得最佳生成质量,我们推荐以下采样参数:

  • temperature:0.85
  • top_p:0.95
  • top_k:20
  • min_p:0.0
  • presence_penalty:1.1
  • repetition_penalty:1.0

https://huggingface.co/InternScience/Agents-A1#agent-capability-evaluation智能体能力评估

为了向社区提供统一的智能体评估代码库以实现公平比较,我们还开源了一个评估框架,用于评估智能体模型的核心能力,包括工具使用和多步推理。评估代码包含在本仓库的 Agents-A1/evaluation(https://github.com/InternScience/Agents-A1/tree/main/evaluation)目录中。

我们使用该框架在标准化且可复现的设置下评估发布的模型。具体来说,模型在一组面向智能体的任务上进行测试,这些任务要求模型理解用户目标、分解复杂指令、必要时与工具或环境交互并生成最终结果。模型卡(https://huggingface.co/InternScience/Agents-A1)中报告的评估结果是使用上述开源框架生成的,以便用户复现实验、在同一协议下比较其他模型,并进一步扩展基准以应对新的智能体场景。(注意: 为确保公平比较,我们报告的是原始技术报告中的基准结果。如果某个模型未报告相应基准结果,我们将使用与自身模型相同的评估协议对其进行评估。)

有关详细的评估脚本、任务定义、指标和复现说明,请参阅评估代码库。

https://huggingface.co/InternScience/Agents-A1#citation引用

如果您认为我们的工作有帮助,欢迎引用。

相似文章

扩展视野而非参数:以35B智能体达到万亿参数性能

Hugging Face Daily Papers

介绍了Agents-A1,一个35B混合专家智能体模型,通过长视野轨迹缩放和三阶段训练方法(包括SFT、领域级教师和多教师蒸馏)实现了万亿参数级别的性能。在长视野智能体基准测试中,该模型表现优于或媲美更大规模的模型。

Agent-World:面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua