@LottoLabs: 这里有一个有趣的模型，35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分，而 qwen 3.6 27b 得分为 59.3。关键……

X AI KOLs Following 2026/06/08 14:10 模型

agentic-model open-source coding-agent terminal-bench agentic-thinking large-language-model

摘要

Nex-AGI 发布了 Nex-N2，一个开源的智能体模型系列 (Nex-N2-Pro 和 Nex-N2-mini)，采用 Agentic Thinking 框架，统一了推理、工具使用和环境执行，在智能体和编码基准测试中达到顶级性能。

这里有一个有趣的模型 35b a3b 专为智能体使用而训练它在 Terminal Bench2 上获得 60.7 分，qwen 3.6 27b 得分为 59.3 基本上相同我打算试用一下 https://t.co/cJ0G7Nm5Yu

查看原文

查看缓存全文

缓存时间: 2026/06/08 17:24

这里有个有趣的模型：35b a3b，针对代理场景训练。在 Terminal Bench2 上得分 60.7，qwen 3.6 27b 得分 59.3 —— 几乎一样。得试试看。https://t.co/cJ0G7Nm5Yu — # nex-agi/Nex-N2-mini · Hugging Face 来源：https://huggingface.co/nex-agi/Nex-N2-mini — 一个具备代理思维的代理模型。 今天，我们正式发布并开源了我们的下一代模型 Nex-N2 —— 一个为真实生产力场景打造的代理模型。凭借一流的编码和代理能力，Nex-N2 能在真实环境中持续驱动复杂、长周期的任务，提供稳定、端到端的结果。
过去一年，由 Vibe Coding 和 Harness Engineering 引领的范式转变，不断重新定义 LLM 代理的边界。从对话，到推理，再到能执行长周期任务并接收环境反馈的代理，模型需要处理的任务越来越难，上下文越来越长，环境也越来越真实。
下一代模型竞争的核心不再是模型能否思考，而是能否可靠且高效地将思考转化为可执行、可验证、可迭代的行动。
Nex-N2 不将推理、工具使用和环境执行视为独立能力，而是通过 Agentic Thinking（代理思维） 框架将它们统一起来，将需求理解、任务规划、代码实现、环境反馈、评估调试与持续迭代连接成一个完整的闭环。该框架包含两部分：

Adaptive Thinking（自适应思维）：让模型自主决定何时思考、思考多深 —— 快速执行简单动作，同时深入推理关键决策。
Coherent Thinking（连贯思维）：在通用推理和各类代理任务中保持一致推理范式，跨任务和模态保持稳定，从而实现能力稳定迁移。在真实的代理工作流中 —— 包括代理式编码、深度研究、工具调用、终端执行 —— Nex-N2 达到了第一梯队的性能，在多个权威基准上相比上一代 Nex-N1 有显著提升。在诸如 OpenClaw 单人公司工作流、端到端游戏开发、网页与多模态生成等真实生产力场景中，同样展现出优秀的可用性、鲁棒性和稳定性。

https://huggingface.co/nex-agi/Nex-N2-mini#open-source 开源

秉持开源承诺，我们从今天起同时开源 Nex-N2-Pro 和 Nex-N2-mini 两个模型。

Nex-N2-Pro： Hugging Face (https://huggingface.co/nex-agi/Nex-N2-Pro) | ModelScope (https://www.modelscope.cn/models/nex-agi/Nex-N2-Pro)
Nex-N2-mini： Hugging Face (https://huggingface.co/nex-agi/Nex-N2-mini) | ModelScope (https://www.modelscope.cn/models/nex-agi/Nex-N2-mini)
早期访问： SiliconFlow (https://cloud.siliconflow.cn/me/models?target=nex-agi%2FNex-N2-Pro)
欢迎开发者和企业集成并试用 Nex-N2，分享反馈。

https://huggingface.co/nex-agi/Nex-N2-mini#performance 性能

我们从三个方向 —— 代理任务、编码任务和通用任务 —— 评估 Nex-N2 在真实代理工作流中的表现，覆盖工具调用、基于搜索的决策、软件工程和终端执行等基准。
Nex-N2-Pro 提供了强大的性能，与 GPT-5.5 和 Opus 4.7 等顶级模型并驾齐驱：在编码（如 Terminal-Bench 2.1 上 75.3）和长程任务（GDPval 上 1585）中表现优异，并在 SWE-Atlas 和 DeepSWE 等较新基准上展现出很强的泛化能力和竞争力。在通用能力和核心推理方面，它达到了一流前沿模型的水平。

Nex-N2 基准概览 (https://huggingface.co/nex-agi/Nex-N2-mini/blob/main/figures/Nex-N2-Benchmark-white.png)

Nex-N2 提供两个变体，均基于 Qwen3.5 系列后训练：Nex-N2-Pro（基于 Qwen3.5-397B-A17B）和 Nex-N2-mini（基于 Qwen3.5-35B-A3B-Base），覆盖不同延迟和质量权衡。下表报告了它们在完整评估套件中的分数，并与领先的专有和开源模型进行了对比。

基准	Nex-N2-mini	Nex-N2-Pro	GPT-5.5	Opus 4.7	Kimi-K2.6	GLM-5.1	MiniMax M3	DeepSeek-V4-Pro
Agent
BrowseComp	74.1	83.7	84.4	79.8	83.2	79.3	83.5	83.4
GDPval	1402	1585	1769	1753	1481	1535	-	1554
Toolathlon	33.3	51.9	55.6	52.8	50.0	40.7	-	51.8
WildClawBench	47.7	53.5	58.2	62.2	-	48.2	-	43.7
WideSearch	62.0	75.6	-	-	80.8	-	-	-
TAU	365.9	71.1	-	-	-	70.6	-	-
Coding & SWE
SWE-Bench Pro	50.2	58.8	58.6	64.3	58.6	58.4	59.0	55.4
Terminal-Bench 2.1	60.7	75.3	83.4	69.7	-	58.7	66.0	72.0
DeepSWE	8.0	33.6	70	54	24	18	-	8
SWE-Bench Verified	74.4	80.8	82.9	87.6	80.2	-	80.5	80.6
SWE Atlas QnA	31.5	37.9	45.4	45.2	-	-	37.9	-
SWE Atlas RF	30.0	32.9	44.8	48.6	-	-	-	-
SWE Atlas TW	23.3	40.0	42.6	38.2	-	-	30.8	-
General & Reasoning
GPQA Diamond	82.6	90.7	93.6	94.2	90.5	86.2	-	90.1
IFEval	89.1	94.0	-	-	94.5	94.5	-	91.9
Apex	9.4	36.5	-	-	24.0	11.5	-	38.3

https://huggingface.co/nex-agi/Nex-N2-mini#usage 使用

https://huggingface.co/nex-agi/Nex-N2-mini#local-deployment 本地部署

注意： 为获得 Nex 系列模型的最佳性能，建议使用我们定制的 sglang 分支进行服务。

首先，安装我们定制的 sglang 分支：

# 使用定制的 `sglang` 分支
git clone https://github.com/nex-agi/sglang.git
cd sglang
# 安装 Python 包
pip install --upgrade pip
pip install -e "python"

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-pro Nex-N2-Pro

启动服务器（示例：两台 8× H100 服务器，CUDA 13.0）：

# 多节点（2个节点）。在每个节点上运行相同命令，其中：
# <rank> 在头节点上为 0，在其他节点上为 1
# <head_ip> 为头节点 IP（可被所有其他节点访问）
python -m sglang.launch_server \
    --model-path /path/to/your/model \
    --tp 16 \
    --nnodes 2 \
    --node-rank <rank> \
    --dist-init-addr <head_ip>:20000 \
    --reasoning-parser qwen3 \
    --tool-call-parser qwen3_coder \
    --mamba-scheduler-strategy extra_buffer

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-mini Nex-N2-mini

启动服务器（示例：一台 2× H100 服务器，CUDA 13.0）：

python -m sglang.launch_server \
    --model-path /path/to/your/model \
    --tp 2 \
    --reasoning-parser qwen3 \
    --tool-call-parser qwen3_coder \
    --mamba-scheduler-strategy extra_buffer

https://huggingface.co/nex-agi/Nex-N2-mini#docker-deployment Docker 部署

我们还提供了一个预构建的 Docker 镜像，已预装我们定制的 sglang 分支：nexagi/sglang:v0.5.12。启动命令同上。

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-pro-1 Nex-N2-Pro

# 多节点（2个节点）。在每个节点上运行相同命令，其中：
# <rank> 在头节点上为 0，在其他节点上为 1
# <head_ip> 为头节点 IP（可被所有其他节点访问）
docker run --gpus all --shm-size 32g --network host \
    -v /path/to/your/model:/model \
    nexagi/sglang:v0.5.12 \
    python3 -m sglang.launch_server \
        --model-path /model \
        --tp 16 \
        --nnodes 2 \
        --node-rank <rank> \
        --dist-init-addr <head_ip>:20000 \
        --host 0.0.0.0 --port 30000 \
        --reasoning-parser qwen3 \
        --tool-call-parser qwen3_coder \
        --mamba-scheduler-strategy extra_buffer

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-mini-1 Nex-N2-mini

单节点，2× H100：

docker run --gpus all --shm-size 32g --ipc=host \
    -p 30000:30000 \
    -v /path/to/your/model:/model \
    nexagi/sglang:v0.5.12 \
    python3 -m sglang.launch_server \
        --model-path /model \
        --tp 2 \
        --host 0.0.0.0 --port 30000 \
        --reasoning-parser qwen3 \
        --tool-call-parser qwen3_coder \
        --mamba-scheduler-strategy extra_buffer

https://huggingface.co/nex-agi/Nex-N2-mini#recommended-sampling-parameters 推荐采样参数

为获得最佳生成质量，我们推荐以下采样参数：

temperature: 0.7
top_p: 0.95
top_k: 40

https://huggingface.co/nex-agi/Nex-N2-mini#function-calling 函数调用

Nex 系列模型支持强大的函数调用能力。要启用函数调用，请在启动服务器时添加 --tool-call-parser qwen3_coder 标志：

python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder

https://huggingface.co/nex-agi/Nex-N2-mini#reasoning-parser 推理解析器

Nex 系列模型会输出显式的推理轨迹。添加 --reasoning-parser qwen3 标志可将推理内容与最终响应分开解析。它可以与上面的函数调用解析器结合使用：

python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder --reasoning-parser qwen3

@LottoLabs: 这里有一个有趣的模型，35b a3b 专为智能体使用而训练。它在 Terminal Bench2 上获得 60.7 分，而 qwen 3.6 27b 得分为 59.3。关键……

https://huggingface.co/nex-agi/Nex-N2-mini#open-source 开源

https://huggingface.co/nex-agi/Nex-N2-mini#performance 性能

https://huggingface.co/nex-agi/Nex-N2-mini#usage 使用

https://huggingface.co/nex-agi/Nex-N2-mini#local-deployment 本地部署

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-pro Nex-N2-Pro

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-mini Nex-N2-mini

https://huggingface.co/nex-agi/Nex-N2-mini#docker-deployment Docker 部署

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-pro-1 Nex-N2-Pro

https://huggingface.co/nex-agi/Nex-N2-mini#nex-n2-mini-1 Nex-N2-mini

https://huggingface.co/nex-agi/Nex-N2-mini#recommended-sampling-parameters 推荐采样参数

https://huggingface.co/nex-agi/Nex-N2-mini#function-calling 函数调用

https://huggingface.co/nex-agi/Nex-N2-mini#reasoning-parser 推理解析器

相似文章

nex-agi/Nex-N2-Pro

@ModelScope2022: Nex-N2 现已开源！来自 Nex AGI 的智能体模型系列，专为编程、工具使用、深度研究和长时...

@rohanpaul_ai: Qwen 3.7 Max 在编码和智能代理能力方面非常接近前沿模型。而且它现在已经在AI/ML API上可用。

NVIDIA 刚刚宣布发布 Nemotron 3 Ultra（2分钟阅读）

@jinyuhou0: 在主流基准测试中，我们的30B模型与规模大20-30倍的系统（gpt-5.4-xhigh、DeepSeek-V3.2、Kimi-K2.5）匹敌，而……

提交意见反馈