InternScience/Agents-A1 · Hugging Face

Reddit r/LocalLLaMA 2026/06/30 06:43 模型

摘要

Agents-A1 是 InternScience 推出的 35B 参数混合专家（MoE）智能体模型，通过长程轨迹缩放和多教师多领域蒸馏技术，在与 GPT-5.5 和 DeepSeek-V4-pro 等前沿规模系统的对比中展现出具有竞争力的性能。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/30 07:39

InternScience/Agents-A1 · Hugging Face

来源：https://huggingface.co/InternScience/Agents-A1

https://huggingface.co/InternScience/Agents-A1#agents-a1-scaling-the-horizon-not-the-parameters-reaching-trillion-parameter-performance-with-a-35b-agentAgents-A1：扩展视野而非参数——用35B智能体达到万亿参数性能

本仓库包含 Agents-A1 模型权重和 Hugging Face Transformers 格式的配置文件。这些工件兼容 Hugging Face Transformers、vLLM、SGLang 等。

Agents-A1 是来自 InternScience（https://huggingface.co/InternScience）的 35B 混合专家智能体模型，旨在跨多个领域扩展异构智能体能力，包括长期搜索、工程、科学研究、指令遵循和工具调用。我们从两个角度研究智能体视野扩展：扩展长期轨迹和扩展异构智能体能力。

从长期轨迹扩展来看，Agents-A1 在领域基础的知识-行动基础设施辅助下进行训练，该基础设施共同构建行动、观察和验证器结果，将智能体的过程转化为可训练目标。从异构智能体能力扩展来看，Agents-A1 提出了一种三阶段训练范式，用于构建可扩展的通用智能体模型。首先，我们进行全领域监督微调，使基础模型与广泛的智能体行为对齐。其次，我们训练领域级教师模型，以捕捉各领域的专业知识。第三，我们提出多教师多领域在线策略蒸馏，结合异构感知优化，以提高跨领域知识迁移效率。

Agents-A1 基准测试概览（https://huggingface.co/InternScience/Agents-A1/blob/main/figures/a1_benchmarks_altair_grid.svg）

https://huggingface.co/InternScience/Agents-A1#highlights亮点

智能体推理：Agents-A1 擅长将复杂任务分解为可执行的子步骤，提前规划，并根据中间结果调整策略。
工具使用：原生支持函数调用和工具集成，能够与 API、代码解释器、搜索引擎和其他外部工具无缝交互。
科学与专业推理：处理集成工具的科学推理和专业知识问答。
指令遵循：精确遵循跨多个领域的详细、多约束指令。

我们欢迎开发者和企业集成并尝试 Agents-A1，分享反馈。

https://huggingface.co/InternScience/Agents-A1#performance性能

我们在真实世界智能体和研究导向的工作流中评估 Agents-A1，涵盖六个方向——长期搜索、工程任务、科学研究、指令遵循、通用智能体任务和科学智能体任务。尽管属于约 35B 模型类别，Agents-A1 在多个基准上与前沿规模系统（如 GPT-5.5、DeepSeek-V4-pro 和 Kimi-K2.6）相比展现出极具竞争力的性能。它在若干挑战性基准上取得了整体 SOTA 结果，包括 Seal-0（56.4）、HiPhO（46.4）、FrontierScience-Olympiad（79.0）、FrontierScience-Research（40.00）、IFBench（80.6）和 IFEval（94.8），同时在广泛任务上位居同类模型最佳，例如 BrowseComp（75.5）、XBench-DS-2510（86.0）、GAIA（96.0）、SciCode（44.3）、带工具的 HLE（47.6）和 MolBench-bind（56.8）。这些结果表明 Agents-A1 结合了强大的长期搜索能力、稳健的科学推理和可靠的指令遵循，成为一个高效且强大的智能体模型，缩小了与更大规模前沿模型的差距。

🥇 整体 SOTA 🟢 同类模型（约 35B）中最佳

基准📏	同类模型（约 35B）			更大规模模型🚀			我们的模型⭐
	Qwen3.5-35B-A3B	Qwen3.6-35B-A3B	Nex-N2-mini	Step-3.5-Flash	Kimi-K2.6	DeepSeek-V4-pro(Max)	GPT-5.5(xhigh)
🔍 长期搜索
BrowseComp	61.0	67.9	37	4.1	69.0	83.2	83.4
XBench-DS-2510	77.0	71.0	82.0	56.3	🥇 90.0	🥇 90.0	84.0
Seal0	41.4	38.7	44	9.5	36.9	45	0.4
GAIA	59.8	78.6	48	2.5	84.5	80.5	8
⚙️ 工程任务
SciCode	37.7	35.8	29.9	40.4	53.5	50.0	🥇 56.1
MLE-Lite	24.2	34.8	34.8	54.5	62.1	63.6	🥇 72.7
🧪 科学研究
HLE 带工具	47.4	36.2	32.0	23.1	🥇 54.0	48.2	52.2
HiPhO	37.0	37.7	38.5	38.3	41.1	38.7	43.3
FrontierScience-Olympiad	64.5	60.3	52.0	61.0	73.0	76.0	78.0
FrontierScience-Research	2.5	2.9	5.0	6.7	17.9	13.3	26.7
📋 指令遵循
IFBench	70.2	64.4	54.0	86	4.6	71.7	73.4
LongBench-v2	59.0	57.7	59.6	57.5	62.0	🥇 64.3	-
IFEval	91.9	91.3	88.4	93.5	39	4.4	59
🤖 通用智能体任务
τ2-Bench	🟢 81.2	79.0	74.5	37	5.7	78	1.9
VitaBench	31.9	35.6	23.0	30.0	35.6	3	🥇 49.0
🔬 科学智能体任务
MatTools	21.0	15.9	34.1	44.9	63.8	47.1	🥇 68.8
MolBench-bind	46.0	48.7	51.4	45.9	52	1.6	37.8

https://huggingface.co/InternScience/Agents-A1#usage使用

https://huggingface.co/InternScience/Agents-A1#sglangSGLang

SGLang（https://github.com/sgl-project/sglang）是一个用于大型语言模型和视觉语言模型的快速推理框架。

使用 uv 安装 SGLang：

`` uv venv –python 3.12 –seed –managed-python source .venv/bin/activate

uv pip install sglang ``

更多详情请参阅其文档（https://docs.sglang.ai/get_started/install.html）。

以下命令在 http://localhost:8000/v1 创建 API 端点：

标准版（1 GPU，262K 上下文）： python -m sglang.launch_server \ --model-path InternScience/Agents-A1 \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 262144 \ --reasoning-parser qwen3
工具使用： python -m sglang.launch_server \ --model-path InternScience/Agents-A1 \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 262144 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder

https://huggingface.co/InternScience/Agents-A1#vllmvLLM

vLLM（https://github.com/vllm-project/vllm）是一个高吞吐、内存高效的 LLM 推理和服务引擎。

通过 uv 从主分支安装 vLLM：

`` uv venv –python 3.12 –seed –managed-python source .venv/bin/activate

uv pip install vllm –torch-backend=auto ``

更多详情请参阅其文档（https://docs.vllm.ai/en/stable/getting_started/installation/index.html）。

以下命令在 http://localhost:8000/v1 创建 API 端点：

标准版（1 GPU，262K 上下文）： vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3
工具调用： vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder
纯文本（跳过视觉编码器以释放 KV 缓存内存）： vllm serve InternScience/Agents-A1 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 262144 \ --reasoning-parser qwen3 \ --language-model-only

https://huggingface.co/InternScience/Agents-A1#recommended-sampling-parameters推荐采样参数

为获得最佳生成质量，我们推荐以下采样参数：

temperature：0.85
top_p：0.95
top_k：20
min_p：0.0
presence_penalty：1.1
repetition_penalty：1.0

https://huggingface.co/InternScience/Agents-A1#agent-capability-evaluation智能体能力评估

为了向社区提供统一的智能体评估代码库以实现公平比较，我们还开源了一个评估框架，用于评估智能体模型的核心能力，包括工具使用和多步推理。评估代码包含在本仓库的 Agents-A1/evaluation（https://github.com/InternScience/Agents-A1/tree/main/evaluation）目录中。

我们使用该框架在标准化且可复现的设置下评估发布的模型。具体来说，模型在一组面向智能体的任务上进行测试，这些任务要求模型理解用户目标、分解复杂指令、必要时与工具或环境交互并生成最终结果。模型卡（https://huggingface.co/InternScience/Agents-A1）中报告的评估结果是使用上述开源框架生成的，以便用户复现实验、在同一协议下比较其他模型，并进一步扩展基准以应对新的智能体场景。（注意： 为确保公平比较，我们报告的是原始技术报告中的基准结果。如果某个模型未报告相应基准结果，我们将使用与自身模型相同的评估协议对其进行评估。）

有关详细的评估脚本、任务定义、指标和复现说明，请参阅评估代码库。

https://huggingface.co/InternScience/Agents-A1#citation引用

如果您认为我们的工作有帮助，欢迎引用。

相似文章

扩展视野而非参数：以35B智能体达到万亿参数性能

Hugging Face Daily Papers

介绍了Agents-A1，一个35B混合专家智能体模型，通过长视野轨迹缩放和三阶段训练方法（包括SFT、领域级教师和多教师蒸馏）实现了万亿参数级别的性能。在长视野智能体基准测试中，该模型表现优于或媲美更大规模的模型。

@ModelScope2022: 推出Agents-A1，一个35B参数的MoE智能体模型，专为搜索、工程、科学研究等长周期任务设计…

X AI KOLs Timeline

ModelScope推出Agents-A1，一个35B MoE智能体模型，支持256K上下文和函数调用，在长周期任务和指令遵循上达到SOTA。

Agent S2：一种面向计算机使用智能体的组合式通才-专才框架

Papers with Code Trending

Agent S2 是一种新型的计算机使用智能体组合式框架，通过采用混合定位（Mixture-of-Grounding）与主动分层规划（Proactive Hierarchical Planning）技术，在多个基准测试中达到了最先进的性能。

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源：[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua

@AnandButani：@huggingface 的 ml-intern 太疯狂了，只需一句高层提示（“打造最强科学推理模型”或“碾压医疗基准”）……

X AI KOLs Following

Hugging Face 开源的“ml-intern”智能体仅需一句高层提示，即可自动化完成后训练全流程：从文献调研、数据清洗到模型调优。

InternScience/Agents-A1 · Hugging Face

https://huggingface.co/InternScience/Agents-A1#agents-a1-scaling-the-horizon-not-the-parameters-reaching-trillion-parameter-performance-with-a-35b-agentAgents-A1：扩展视野而非参数——用35B智能体达到万亿参数性能

https://huggingface.co/InternScience/Agents-A1#highlights亮点

https://huggingface.co/InternScience/Agents-A1#performance性能

https://huggingface.co/InternScience/Agents-A1#usage使用

https://huggingface.co/InternScience/Agents-A1#sglangSGLang

https://huggingface.co/InternScience/Agents-A1#vllmvLLM

https://huggingface.co/InternScience/Agents-A1#recommended-sampling-parameters推荐采样参数

https://huggingface.co/InternScience/Agents-A1#agent-capability-evaluation智能体能力评估

https://huggingface.co/InternScience/Agents-A1#citation引用

相似文章

扩展视野而非参数：以35B智能体达到万亿参数性能

@ModelScope2022: 推出Agents-A1，一个35B参数的MoE智能体模型，专为搜索、工程、科学研究等长周期任务设计…

Agent S2：一种面向计算机使用智能体的组合式通才-专才框架

Agent-World：面向演进式通用智能体的现实世界环境合成扩展

@AnandButani：@huggingface 的 ml-intern 太疯狂了，只需一句高层提示（“打造最强科学推理模型”或“碾压医疗基准”）……

提交意见反馈