@LottoLabs: 这里有一个有趣的模型,35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分,而 qwen 3.6 27b 得分为 59.3。关键……
摘要
Nex-AGI 发布了 Nex-N2,一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini),采用 Agentic Thinking 框架,统一了推理、工具使用和环境执行,在智能体和编码基准测试中达到顶级性能。
查看缓存全文
缓存时间: 2026/06/08 17:24
这里有个有趣的模型:35b a3b,针对代理场景训练。在 Terminal Bench2 上得分 60.7,qwen 3.6 27b 得分 59.3 —— 几乎一样。得试试看。https://t.co/cJ0G7Nm5Yu — # nex-agi/Nex-N2-mini · Hugging Face 来源:https://huggingface.co/nex-agi/Nex-N2-mini — 一个具备代理思维的代理模型。 今天,我们正式发布并开源了我们的下一代模型 Nex-N2 —— 一个为真实生产力场景打造的代理模型。凭借一流的编码和代理能力,Nex-N2 能在真实环境中持续驱动复杂、长周期的任务,提供稳定、端到端的结果。
过去一年,由 Vibe Coding 和 Harness Engineering 引领的范式转变,不断重新定义 LLM 代理的边界。从对话,到推理,再到能执行长周期任务并接收环境反馈的代理,模型需要处理的任务越来越难,上下文越来越长,环境也越来越真实。
下一代模型竞争的核心不再是模型能否思考,而是能否可靠且高效地将思考转化为可执行、可验证、可迭代的行动。
Nex-N2 不将推理、工具使用和环境执行视为独立能力,而是通过 Agentic Thinking(代理思维) 框架将它们统一起来,将需求理解、任务规划、代码实现、环境反馈、评估调试与持续迭代连接成一个完整的闭环。该框架包含两部分:
- Adaptive Thinking(自适应思维):让模型自主决定何时思考、思考多深 —— 快速执行简单动作,同时深入推理关键决策。
- Coherent Thinking(连贯思维):在通用推理和各类代理任务中保持一致推理范式,跨任务和模态保持稳定,从而实现能力稳定迁移。 在真实的代理工作流中 —— 包括代理式编码、深度研究、工具调用、终端执行 —— Nex-N2 达到了第一梯队的性能,在多个权威基准上相比上一代 Nex-N1 有显著提升。在诸如 OpenClaw 单人公司工作流、端到端游戏开发、网页与多模态生成等真实生产力场景中,同样展现出优秀的可用性、鲁棒性和稳定性。
https://huggingface.co/nex-agi/Nex-N2-mini#open-source 开源
秉持开源承诺,我们从今天起同时开源 Nex-N2-Pro 和 Nex-N2-mini 两个模型。
- Nex-N2-Pro: Hugging Face (https://huggingface.co/nex-agi/Nex-N2-Pro) | ModelScope (https://www.modelscope.cn/models/nex-agi/Nex-N2-Pro)
- Nex-N2-mini: Hugging Face (https://huggingface.co/nex-agi/Nex-N2-mini) | ModelScope (https://www.modelscope.cn/models/nex-agi/Nex-N2-mini)
- 早期访问: SiliconFlow (https://cloud.siliconflow.cn/me/models?target=nex-agi%2FNex-N2-Pro)
欢迎开发者和企业集成并试用 Nex-N2,分享反馈。
https://huggingface.co/nex-agi/Nex-N2-mini#performance 性能
我们从三个方向 —— 代理任务、编码任务和通用任务 —— 评估 Nex-N2 在真实代理工作流中的表现,覆盖工具调用、基于搜索的决策、软件工程和终端执行等基准。
Nex-N2-Pro 提供了强大的性能,与 GPT-5.5 和 Opus 4.7 等顶级模型并驾齐驱:在编码(如 Terminal-Bench 2.1 上 75.3)和长程任务(GDPval 上 1585)中表现优异,并在 SWE-Atlas 和 DeepSWE 等较新基准上展现出很强的泛化能力和竞争力。在通用能力和核心推理方面,它达到了一流前沿模型的水平。
Nex-N2 基准概览 (https://huggingface.co/nex-agi/Nex-N2-mini/blob/main/figures/Nex-N2-Benchmark-white.png)
Nex-N2 提供两个变体,均基于 Qwen3.5 系列后训练:Nex-N2-Pro(基于 Qwen3.5-397B-A17B)和 Nex-N2-mini(基于 Qwen3.5-35B-A3B-Base),覆盖不同延迟和质量权衡。下表报告了它们在完整评估套件中的分数,并与领先的专有和开源模型进行了对比。
| 基准 | Nex-N2-mini | Nex-N2-Pro | GPT-5.5 | Opus 4.7 | Kimi-K2.6 | GLM-5.1 | MiniMax M3 | DeepSeek-V4-Pro |
|---|---|---|---|---|---|---|---|---|
| Agent | ||||||||
| BrowseComp | 74.1 | 83.7 | 84.4 | 79.8 | 83.2 | 79.3 | 83.5 | 83.4 |
| GDPval | 1402 | 1585 | 1769 | 1753 | 1481 | 1535 | - | 1554 |
| Toolathlon | 33.3 | 51.9 | 55.6 | 52.8 | 50.0 | 40.7 | - | 51.8 |
| WildClawBench | 47.7 | 53.5 | 58.2 | 62.2 | - | 48.2 | - | 43.7 |
| WideSearch | 62.0 | 75.6 | - | - | 80.8 | - | - | - |
| TAU | 365.9 | 71.1 | - | - | - | 70.6 | - | - |
| Coding & SWE | ||||||||
| SWE-Bench Pro | 50.2 | 58.8 | 58.6 | 64.3 | 58.6 | 58.4 | 59.0 | 55.4 |
| Terminal-Bench 2.1 | 60.7 | 75.3 | 83.4 | 69.7 | - | 58.7 | 66.0 | 72.0 |
| DeepSWE | 8.0 | 33.6 | 70 | 54 | 24 | 18 | - | 8 |
| SWE-Bench Verified | 74.4 | 80.8 | 82.9 | 87.6 | 80.2 | - | 80.5 | 80.6 |
| SWE Atlas QnA | 31.5 | 37.9 | 45.4 | 45.2 | - | - | 37.9 | - |
| SWE Atlas RF | 30.0 | 32.9 | 44.8 | 48.6 | - | - | - | - |
| SWE Atlas TW | 23.3 | 40.0 | 42.6 | 38.2 | - | - | 30.8 | - |
| General & Reasoning | ||||||||
| GPQA Diamond | 82.6 | 90.7 | 93.6 | 94.2 | 90.5 | 86.2 | - | 90.1 |
| IFEval | 89.1 | 94.0 | - | - | 94.5 | 94.5 | - | 91.9 |
| Apex | 9.4 | 36.5 | - | - | 24.0 | 11.5 | - | 38.3 |
https://huggingface.co/nex-agi/Nex-N2-mini#usage 使用
https://huggingface.co/nex-agi/Nex-N2-mini#local-deployment 本地部署
注意: 为获得 Nex 系列模型的最佳性能,建议使用我们定制的
sglang分支进行服务。
首先,安装我们定制的 sglang 分支:
# 使用定制的 `sglang` 分支
git clone https://github.com/nex-agi/sglang.git
cd sglang
# 安装 Python 包
pip install --upgrade pip
pip install -e "python"
https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-pro Nex-N2-Pro
启动服务器(示例:两台 8× H100 服务器,CUDA 13.0):
# 多节点(2个节点)。在每个节点上运行相同命令,其中:
# <rank> 在头节点上为 0,在其他节点上为 1
# <head_ip> 为头节点 IP(可被所有其他节点访问)
python -m sglang.launch_server \
--model-path /path/to/your/model \
--tp 16 \
--nnodes 2 \
--node-rank <rank> \
--dist-init-addr <head_ip>:20000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer
https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-mini Nex-N2-mini
启动服务器(示例:一台 2× H100 服务器,CUDA 13.0):
python -m sglang.launch_server \
--model-path /path/to/your/model \
--tp 2 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer
https://huggingface.co/nex-agi/Nex-N2-mini#docker-deployment Docker 部署
我们还提供了一个预构建的 Docker 镜像,已预装我们定制的 sglang 分支:nexagi/sglang:v0.5.12。启动命令同上。
https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-pro-1 Nex-N2-Pro
# 多节点(2个节点)。在每个节点上运行相同命令,其中:
# <rank> 在头节点上为 0,在其他节点上为 1
# <head_ip> 为头节点 IP(可被所有其他节点访问)
docker run --gpus all --shm-size 32g --network host \
-v /path/to/your/model:/model \
nexagi/sglang:v0.5.12 \
python3 -m sglang.launch_server \
--model-path /model \
--tp 16 \
--nnodes 2 \
--node-rank <rank> \
--dist-init-addr <head_ip>:20000 \
--host 0.0.0.0 --port 30000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer
https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-mini-1 Nex-N2-mini
单节点,2× H100:
docker run --gpus all --shm-size 32g --ipc=host \
-p 30000:30000 \
-v /path/to/your/model:/model \
nexagi/sglang:v0.5.12 \
python3 -m sglang.launch_server \
--model-path /model \
--tp 2 \
--host 0.0.0.0 --port 30000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer
https://huggingface.co/nex-agi/Nex-N2-mini#recommended-sampling-parameters 推荐采样参数
为获得最佳生成质量,我们推荐以下采样参数:
temperature: 0.7top_p: 0.95top_k: 40
https://huggingface.co/nex-agi/Nex-N2-mini#function-calling 函数调用
Nex 系列模型支持强大的函数调用能力。要启用函数调用,请在启动服务器时添加 --tool-call-parser qwen3_coder 标志:
python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder
https://huggingface.co/nex-agi/Nex-N2-mini#reasoning-parser 推理解析器
Nex 系列模型会输出显式的推理轨迹。添加 --reasoning-parser qwen3 标志可将推理内容与最终响应分开解析。它可以与上面的函数调用解析器结合使用:
python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder --reasoning-parser qwen3
相似文章
nex-agi/Nex-N2-Pro
Nex-AGI 发布了 Nex-N2-Pro 与 Nex-N2-mini,这是一个开源的智能体模型,采用“智能体思维”框架,统一了推理、工具使用和环境执行。在智能体编程和长周期任务上展现出具有竞争力的性能。
@ModelScope2022: Nex-N2 现已开源!来自 Nex AGI 的智能体模型系列,专为编程、工具使用、深度研究和长时...
Nex AGI 发布了 Nex-N2,这是一个开源智能体模型系列,用于编程、工具使用、深度研究和长时工作流,具备最先进的基准测试结果并采用 Apache 2.0 许可证。
@rohanpaul_ai: Qwen 3.7 Max 在编码和智能代理能力方面非常接近前沿模型。而且它现在已经在AI/ML API上可用。
Qwen 3.7 Max,Qwen 推出的新AI模型,现已通过AI/ML API提供,展现出接近GPT-5.4和Gemini 3.5 Flash等前沿模型的编码和智能代理能力。提供免费促销代码供用户试用。
NVIDIA 刚刚宣布发布 Nemotron 3 Ultra(2分钟阅读)
Anthropic 发布了其最智能的模型 Claude Opus 4.5,在 Artificial Analysis Intelligence Index 上获得 70 分,仅次于 Gemini 3 Pro。该模型在编码和智能体任务方面取得了显著进步,同时降低了每个token的价格,并保持了强劲的安全性能。
@jinyuhou0: 在主流基准测试中,我们的30B模型与规模大20-30倍的系统(gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5)匹敌,而……
一款新的30B模型在主流基准测试中与规模大20-30倍的系统匹敌,同时相比同类30/32B智能体大语言模型,使用的推理令牌减少高达95%。这是通过一个学习型配置器实现的,该配置器决定何时以及如何进行推理。模型和代码已开放。