nex-agi/Nex-N2-Pro
摘要
Nex-AGI 发布了 Nex-N2-Pro 与 Nex-N2-mini,这是一个开源的智能体模型,采用“智能体思维”框架,统一了推理、工具使用和环境执行。在智能体编程和长周期任务上展现出具有竞争力的性能。
Task: text-generation
Tags: transformers, safetensors, qwen3_5_moe, image-text-to-text, text-generation, conversational, license:apache-2.0, eval-results, endpoints_compatible, region:us
查看缓存全文
缓存时间: 2026/06/08 21:16
nex-agi/Nex-N2-Pro · Hugging Face 来源:https://huggingface.co/nex-agi/Nex-N2-Pro — 一个具备 Agentic Thinking 的智能体模型。 今天,我们正式发布并开源了我们的新一代模型 Nex-N2——一个专为真实生产力场景打造的智能体模型。凭借一流的编程与智能体能力,Nex-N2 在真实环境中持续推进复杂、长周期任务,稳定交付端到端的结果。过去一年,由 Vibe Coding 和 Harness Engineering 引领的范式转变,正在重新定义 LLM 智能体的边界。从对话,到推理,再到能执行长周期任务并接收环境反馈的智能体,模型需要处理的任务越来越困难,上下文越来越长,环境也越来越真实。新一代模型竞争的核心,已不再是模型是否能思考,而是它能否可靠且高效地将思考转化为可执行、可验证、可迭代的行动。Nex-N2 并非将推理、工具使用和环境执行视为独立能力,而是通过一个 Agentic Thinking 框架将其统一起来,将需求理解、任务规划、代码实现、环境反馈、评估调试与持续迭代连接成一个完整的闭环。该框架包含两部分: - Adaptive Thinking 让模型自行决定何时思考以及思考的深度——对简单动作快速执行,对关键决策则深入推理。 - Coherent Thinking 在通用推理和各类智能体任务中保持一致推理范式,跨任务与模态保持一致性,从而实现稳定的能力迁移。在真实的智能体工作流——智能体编程、深度研究、工具调用和终端执行中,Nex-N2 达到了一流水平。在多项权威基准测试上,相较前一代的 Nex-N1 有显著提升。在诸如 OpenClaw 一人公司工作流、端到端游戏开发、网页与多模态生成等真实生产力场景中,同样展现出卓越的可用性、鲁棒性和稳定性。 ## https://huggingface.co/nex-agi/Nex-N2-Pro#open-source 开源 秉承我们对开源的承诺,我们从今天开始同时发布 Nex-N2-Pro 和 Nex-N2-mini 作为开源模型。 - Nex-N2-Pro: Hugging Face (https://huggingface.co/nex-agi/Nex-N2-Pro) | ModelScope (https://www.modelscope.cn/models/nex-agi/Nex-N2-Pro) - Nex-N2-mini: Hugging Face (https://huggingface.co/nex-agi/Nex-N2-mini) | ModelScope (https://www.modelscope.cn/models/nex-agi/Nex-N2-mini) - 早期访问: SiliconFlow (https://cloud.siliconflow.cn/me/models?target=nex-agi%2FNex-N2-Pro) 我们欢迎开发者和企业集成并试用 Nex-N2,并分享反馈。 ## https://huggingface.co/nex-agi/Nex-N2-Pro#performance 性能 我们在真实的智能体工作流中沿三个方向评估了 Nex-N2——智能体任务、编程任务和通用任务,覆盖了工具调用、基于搜索的决策、软件工程和终端执行等多个基准测试。Nex-N2-Pro 展现了强劲性能,与 GPT-5.5 和 Opus 4.7 等顶级模型保持同步:它在编程(例如 Terminal-Bench 2.1 得分 75.3)和长周期任务(GDPval 得分 1585)上表现出色,在 SWE-Atlas 和 DeepSWE 等较新基准测试上展现出特别强的泛化能力和竞争力。在通用能力和核心推理方面,它与领先前沿模型并驾齐驱。 Nex-N2 基准测试概览 (https://huggingface.co/nex-agi/Nex-N2-Pro/blob/main/figures/Nex-N2-Benchmark-white.png) Nex-N2 有两个版本,均在 Qwen3.5 系列上进行后训练:Nex-N2-Pro(基于 Qwen3.5-397B-A17B)和 Nex-N2-mini(基于 Qwen3.5-35B-A3B-Base),在延迟与质量上进行了不同权衡。下表报告了它们以及领先的闭源和开源模型在我们完整评估集上的得分。 基准测试 | Nex-N2-mini | Nex-N2-Pro | GPT-5.5 | Opus 4.7 | Kimi-K2.6 | GLM-5.1 | MiniMax M3 | DeepSeek-V4-Pro — | — | — | — | — | — | — | — | — 智能体 BrowseComp | 74.1 | 83.7 | 84.4 | 79.8 | 83.2 | 79.3 | 83.5 | 83.4 GDPval | 1402 | 1585 | 1769 | 1753 | 1481 | 535 | - | 1554 Toolathlon | 33.3 | 51.9 | 55.6 | 52.8 | 50.0 | 40.7 | - | 51.8 WildClawBench | 47.7 | 53.5 | 58.2 | 62.2 | - | 48.2 | - | 43.7 WideSearch | 62.0 | 75.6 | - | - | 80.8 | - | - | - TAU3 | 65.9 | 71.1 | - | - | - | 70.6 | - | - 编程与 SWE SWE-Bench Pro | 50.2 | 58.8 | 58.6 | 64.3 | 58.6 | 58.4 | 59.0 | 55.4 Terminal-Bench 2.1 | 60.7 | 75.3 | 83.4 | 69.7 | - | 58.7 | 66.0 | 72.0 DeepSWE | 8.0 | 33.6 | 70 | 54 | 24 | 18 | - | 8 SWE-Bench Verified | 74.4 | 80.8 | 82.9 | 87.6 | 80.2 | - | 80.5 | 80.6 SWE Atlas QnA | 31.5 | 37.9 | 45.4 | 45.2 | - | - | 37.9 | - SWE Atlas RF | 30.0 | 32.9 | 44.8 | 48.6 | - | - | - | - SWE Atlas TW | 23.3 | 40.0 | 42.6 | 38.2 | - | - | 30.8 | - 通用与推理 GPQA Diamond | 82.6 | 90.7 | 93.6 | 94.2 | 90.5 | 86.2 | - | 90.1 IFEval | 89.1 | 94.0 | - | - | 94.5 | 94.5 | - | 91.9 Apex | 9.4 | 36.5 | - | - | 24.0 | 11.5 | - | 38.3 ## https://huggingface.co/nex-agi/Nex-N2-Pro#usage 使用 ### https://huggingface.co/nex-agi/Nex-N2-Pro#local-deployment 本地部署 > 注意: 为获得 Nex 系列模型的最佳性能,我们建议使用我们定制的 sglang 分支进行服务。首先,安装我们的 sglang 分支: # 使用定制的 `sglang` 分支 git clone https://github.com/nex-agi/sglang.git cd sglang # 安装 Python 包 pip install --upgrade pip pip install -e "python" #### https://huggingface.co/nex-agi/Nex-N2-Pro#nex-n2-pro Nex-N2-Pro 启动服务器(示例使用两台 8× H100 服务器,CUDA 13.0): # 多节点(2 个节点)。在每个节点上运行相同的命令,其中: # <node_rank> = 0(头节点),1(其他节点) # <dist_init_addr> = 头节点的 IP(所有节点均可访问) python -m sglang.launch_server \ --model-path /path/to/your/model \ --tp 16 \ --nnodes 2 \ --node-rank <node_rank> \ --dist-init-addr <dist_init_addr>:20000 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --mamba-scheduler-strategy extra_buffer #### https://huggingface.co/nex-agi/Nex-N2-Pro#nex-n2-mini Nex-N2-mini 启动服务器(示例使用一台 2× H100 服务器,CUDA 13.0): python -m sglang.launch_server \ --model-path /path/to/your/model \ --tp 2 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --mamba-scheduler-strategy extra_buffer ### https://huggingface.co/nex-agi/Nex-N2-Pro#docker-deployment Docker 部署 我们还提供了一个预构建的 Docker 镜像,其中预装了定制的 sglang 分支:nexagi/sglang:v0.5.12。启动命令与上述相同。 #### https://huggingface.co/nex-agi/Nex-N2-Pro#nex-n2-pro-1 Nex-N2-Pro # 多节点(2 个节点)。在每个节点上运行相同的命令,其中: # <node_rank> = 0(头节点),1(其他节点) # <dist_init_addr> = 头节点的 IP(所有节点均可访问) docker run --gpus all --shm-size 32g --network host \ -v /path/to/your/model:/model \ nexagi/sglang:v0.5.12 \ python3 -m sglang.launch_server \ --model-path /model \ --tp 16 \ --nnodes 2 \ --node-rank <node_rank> \ --dist-init-addr <dist_init_addr>:20000 \ --host 0.0.0.0 --port 30000 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --mamba-scheduler-strategy extra_buffer #### https://huggingface.co/nex-agi/Nex-N2-Pro#nex-n2-mini-1 Nex-N2-mini 单节点,2× H100: docker run --gpus all --shm-size 32g --ipc=host \ -p 30000:30000 \ -v /path/to/your/model:/model \ nexagi/sglang:v0.5.12 \ python3 -m sglang.launch_server \ --model-path /model \ --tp 2 \ --host 0.0.0.0 --port 30000 \ --reasoning-parser qwen3 \ --tool-call-parser qwen3_coder \ --mamba-scheduler-strategy extra_buffer ### https://huggingface.co/nex-agi/Nex-N2-Pro#recommended-sampling-parameters 推荐采样参数 为获得最佳生成质量,我们推荐以下采样参数: - temperature: 0.7 - top_p: 0.95 - top_k: 40 ### https://huggingface.co/nex-agi/Nex-N2-Pro#function-calling 函数调用 Nex 系列模型支持强大的函数调用能力。要启用函数调用,请在启动服务器时添加 --tool-call-parser qwen3_coder 标志: python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder ### https://huggingface.co/nex-agi/Nex-N2-Pro#reasoning-parser 推理解析器 Nex 系列模型会输出显式的推理过程。添加 --reasoning-parser qwen3 标志,可将推理内容与最终响应分开解析。它可以与上面的函数调用解析器组合: python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder --reasoning-parser qwen3
相似文章
@ModelScope2022: Nex-N2 现已开源!来自 Nex AGI 的智能体模型系列,专为编程、工具使用、深度研究和长时...
Nex AGI 发布了 Nex-N2,这是一个开源智能体模型系列,用于编程、工具使用、深度研究和长时工作流,具备最先进的基准测试结果并采用 Apache 2.0 许可证。
@LottoLabs: 这里有一个有趣的模型,35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分,而 qwen 3.6 27b 得分为 59.3。关键……
Nex-AGI 发布了 Nex-N2,一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini),采用 Agentic Thinking 框架,统一了推理、工具使用和环境执行,在智能体和编码基准测试中达到顶级性能。
nex-agi/Nex-N2-Pro • Huggingface
nex-agi 已在 Hugging Face 上发布了 Nex-N2-Pro 模型。
@TeksEdge: 天哪!新开源LLM之王!击败领先开源模型。开始测试以验证基准。Nex-N2-Pr…
Nex-N2-Pro是NexEcosystem新推出的开源LLM,据报道在基准测试中优于Kimi-K2.6和DeepSeek-V4-Pro等领先模型,具有自适应和连贯思维的特点。
gpt-oss-120b & gpt-oss-20b 模型卡
OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b,这是两款采用 Apache 2.0 许可证的开权重推理模型,专为智能体工作流设计,具有强大的指令跟随、工具使用和思维链能力。该发布包括全面的安全评估,确认即使在对抗性微调下,这些模型也不会达到生物、化学或网络风险的高能力阈值。