@LottoLabs: 这里有一个有趣的模型,35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分,而 qwen 3.6 27b 得分为 59.3。关键……

X AI KOLs Following 模型

摘要

Nex-AGI 发布了 Nex-N2,一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini),采用 Agentic Thinking 框架,统一了推理、工具使用和环境执行,在智能体和编码基准测试中达到顶级性能。

这里有一个有趣的模型 35b a3b 专为智能体使用而训练 它在 Terminal Bench2 上获得 60.7 分,qwen 3.6 27b 得分为 59.3 基本上相同 我打算试用一下 https://t.co/cJ0G7Nm5Yu
查看原文
查看缓存全文

缓存时间: 2026/06/08 17:24

这里有个有趣的模型:35b a3b,针对代理场景训练。在 Terminal Bench2 上得分 60.7,qwen 3.6 27b 得分 59.3 —— 几乎一样。得试试看。https://t.co/cJ0G7Nm5Yu — # nex-agi/Nex-N2-mini · Hugging Face 来源:https://huggingface.co/nex-agi/Nex-N2-mini — 一个具备代理思维的代理模型。 今天,我们正式发布并开源了我们的下一代模型 Nex-N2 —— 一个为真实生产力场景打造的代理模型。凭借一流的编码和代理能力,Nex-N2 能在真实环境中持续驱动复杂、长周期的任务,提供稳定、端到端的结果。
过去一年,由 Vibe Coding 和 Harness Engineering 引领的范式转变,不断重新定义 LLM 代理的边界。从对话,到推理,再到能执行长周期任务并接收环境反馈的代理,模型需要处理的任务越来越难,上下文越来越长,环境也越来越真实。
下一代模型竞争的核心不再是模型能否思考,而是能否可靠且高效地将思考转化为可执行、可验证、可迭代的行动。
Nex-N2 不将推理、工具使用和环境执行视为独立能力,而是通过 Agentic Thinking(代理思维) 框架将它们统一起来,将需求理解、任务规划、代码实现、环境反馈、评估调试与持续迭代连接成一个完整的闭环。该框架包含两部分:

  • Adaptive Thinking(自适应思维):让模型自主决定何时思考、思考多深 —— 快速执行简单动作,同时深入推理关键决策。
  • Coherent Thinking(连贯思维):在通用推理和各类代理任务中保持一致推理范式,跨任务和模态保持稳定,从而实现能力稳定迁移。 在真实的代理工作流中 —— 包括代理式编码、深度研究、工具调用、终端执行 —— Nex-N2 达到了第一梯队的性能,在多个权威基准上相比上一代 Nex-N1 有显著提升。在诸如 OpenClaw 单人公司工作流、端到端游戏开发、网页与多模态生成等真实生产力场景中,同样展现出优秀的可用性、鲁棒性和稳定性。

https://huggingface.co/nex-agi/Nex-N2-mini#open-source 开源

秉持开源承诺,我们从今天起同时开源 Nex-N2-ProNex-N2-mini 两个模型。

  • Nex-N2-Pro: Hugging Face (https://huggingface.co/nex-agi/Nex-N2-Pro) | ModelScope (https://www.modelscope.cn/models/nex-agi/Nex-N2-Pro)
  • Nex-N2-mini: Hugging Face (https://huggingface.co/nex-agi/Nex-N2-mini) | ModelScope (https://www.modelscope.cn/models/nex-agi/Nex-N2-mini)
  • 早期访问: SiliconFlow (https://cloud.siliconflow.cn/me/models?target=nex-agi%2FNex-N2-Pro)
    欢迎开发者和企业集成并试用 Nex-N2,分享反馈。

https://huggingface.co/nex-agi/Nex-N2-mini#performance 性能

我们从三个方向 —— 代理任务、编码任务和通用任务 —— 评估 Nex-N2 在真实代理工作流中的表现,覆盖工具调用、基于搜索的决策、软件工程和终端执行等基准。
Nex-N2-Pro 提供了强大的性能,与 GPT-5.5 和 Opus 4.7 等顶级模型并驾齐驱:在编码(如 Terminal-Bench 2.1 上 75.3)和长程任务(GDPval 上 1585)中表现优异,并在 SWE-Atlas 和 DeepSWE 等较新基准上展现出很强的泛化能力和竞争力。在通用能力和核心推理方面,它达到了一流前沿模型的水平。

Nex-N2 基准概览 (https://huggingface.co/nex-agi/Nex-N2-mini/blob/main/figures/Nex-N2-Benchmark-white.png)

Nex-N2 提供两个变体,均基于 Qwen3.5 系列后训练:Nex-N2-Pro(基于 Qwen3.5-397B-A17B)和 Nex-N2-mini(基于 Qwen3.5-35B-A3B-Base),覆盖不同延迟和质量权衡。下表报告了它们在完整评估套件中的分数,并与领先的专有和开源模型进行了对比。

基准Nex-N2-miniNex-N2-ProGPT-5.5Opus 4.7Kimi-K2.6GLM-5.1MiniMax M3DeepSeek-V4-Pro
Agent
BrowseComp74.183.784.479.883.279.383.583.4
GDPval140215851769175314811535-1554
Toolathlon33.351.955.652.850.040.7-51.8
WildClawBench47.753.558.262.2-48.2-43.7
WideSearch62.075.6--80.8---
TAU365.971.1---70.6--
Coding & SWE
SWE-Bench Pro50.258.858.664.358.658.459.055.4
Terminal-Bench 2.160.775.383.469.7-58.766.072.0
DeepSWE8.033.670542418-8
SWE-Bench Verified74.480.882.987.680.2-80.580.6
SWE Atlas QnA31.537.945.445.2--37.9-
SWE Atlas RF30.032.944.848.6----
SWE Atlas TW23.340.042.638.2--30.8-
General & Reasoning
GPQA Diamond82.690.793.694.290.586.2-90.1
IFEval89.194.0--94.594.5-91.9
Apex9.436.5--24.011.5-38.3

https://huggingface.co/nex-agi/Nex-N2-mini#usage 使用

https://huggingface.co/nex-agi/Nex-N2-mini#local-deployment 本地部署

注意: 为获得 Nex 系列模型的最佳性能,建议使用我们定制的 sglang 分支进行服务。

首先,安装我们定制的 sglang 分支:

# 使用定制的 `sglang` 分支
git clone https://github.com/nex-agi/sglang.git
cd sglang
# 安装 Python 包
pip install --upgrade pip
pip install -e "python"

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-pro Nex-N2-Pro

启动服务器(示例:两台 8× H100 服务器,CUDA 13.0):

# 多节点(2个节点)。在每个节点上运行相同命令,其中:
# <rank> 在头节点上为 0,在其他节点上为 1
# <head_ip> 为头节点 IP(可被所有其他节点访问)
python -m sglang.launch_server \
    --model-path /path/to/your/model \
    --tp 16 \
    --nnodes 2 \
    --node-rank <rank> \
    --dist-init-addr <head_ip>:20000 \
    --reasoning-parser qwen3 \
    --tool-call-parser qwen3_coder \
    --mamba-scheduler-strategy extra_buffer

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-mini Nex-N2-mini

启动服务器(示例:一台 2× H100 服务器,CUDA 13.0):

python -m sglang.launch_server \
    --model-path /path/to/your/model \
    --tp 2 \
    --reasoning-parser qwen3 \
    --tool-call-parser qwen3_coder \
    --mamba-scheduler-strategy extra_buffer

https://huggingface.co/nex-agi/Nex-N2-mini#docker-deployment Docker 部署

我们还提供了一个预构建的 Docker 镜像,已预装我们定制的 sglang 分支:nexagi/sglang:v0.5.12。启动命令同上。

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-pro-1 Nex-N2-Pro

# 多节点(2个节点)。在每个节点上运行相同命令,其中:
# <rank> 在头节点上为 0,在其他节点上为 1
# <head_ip> 为头节点 IP(可被所有其他节点访问)
docker run --gpus all --shm-size 32g --network host \
    -v /path/to/your/model:/model \
    nexagi/sglang:v0.5.12 \
    python3 -m sglang.launch_server \
        --model-path /model \
        --tp 16 \
        --nnodes 2 \
        --node-rank <rank> \
        --dist-init-addr <head_ip>:20000 \
        --host 0.0.0.0 --port 30000 \
        --reasoning-parser qwen3 \
        --tool-call-parser qwen3_coder \
        --mamba-scheduler-strategy extra_buffer

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-mini-1 Nex-N2-mini

单节点,2× H100:

docker run --gpus all --shm-size 32g --ipc=host \
    -p 30000:30000 \
    -v /path/to/your/model:/model \
    nexagi/sglang:v0.5.12 \
    python3 -m sglang.launch_server \
        --model-path /model \
        --tp 2 \
        --host 0.0.0.0 --port 30000 \
        --reasoning-parser qwen3 \
        --tool-call-parser qwen3_coder \
        --mamba-scheduler-strategy extra_buffer

https://huggingface.co/nex-agi/Nex-N2-mini#recommended-sampling-parameters 推荐采样参数

为获得最佳生成质量,我们推荐以下采样参数:

  • temperature: 0.7
  • top_p: 0.95
  • top_k: 40

https://huggingface.co/nex-agi/Nex-N2-mini#function-calling 函数调用

Nex 系列模型支持强大的函数调用能力。要启用函数调用,请在启动服务器时添加 --tool-call-parser qwen3_coder 标志:

python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder

https://huggingface.co/nex-agi/Nex-N2-mini#reasoning-parser 推理解析器

Nex 系列模型会输出显式的推理轨迹。添加 --reasoning-parser qwen3 标志可将推理内容与最终响应分开解析。它可以与上面的函数调用解析器结合使用:

python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder --reasoning-parser qwen3

相似文章

nex-agi/Nex-N2-Pro

Hugging Face Models Trending

Nex-AGI 发布了 Nex-N2-Pro 与 Nex-N2-mini,这是一个开源的智能体模型,采用“智能体思维”框架,统一了推理、工具使用和环境执行。在智能体编程和长周期任务上展现出具有竞争力的性能。

NVIDIA 刚刚宣布发布 Nemotron 3 Ultra(2分钟阅读)

TLDR AI

Anthropic 发布了其最智能的模型 Claude Opus 4.5,在 Artificial Analysis Intelligence Index 上获得 70 分,仅次于 Gemini 3 Pro。该模型在编码和智能体任务方面取得了显著进步,同时降低了每个token的价格,并保持了强劲的安全性能。