North Mini Code 更新:4位量化 + Ollama + OpenRouter

Reddit r/LocalLLaMA 模型

摘要

Cohere 发布 North Mini Code,一个30B-A3B开源权重模型,采用4位量化,用于代码生成和智能体编码任务,支持256K上下文。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/18 19:34

CohereLabs/North-Mini-Code-1.0-w4a16 · Hugging Face

来源:https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-for-north-mini-codeNorth Mini Code 模型卡片

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-summary模型摘要

North Mini Code 是一个开放权重的研究发布版模型,拥有 30B-A3B 参数,针对代码生成、智能体软件工程和终端任务进行了优化。

开发者:Cohere (https://cohere.com/) 和 Cohere Labs (https://cohere.com/research)

  • 联系方式:Cohere Labs (https://cohere.com/research)
  • 许可协议:Apache 2.0
  • 模型:North Mini Code
  • 模型大小:总计 30B;活跃 3B
  • 上下文长度:256K 输入,64K 最大输出
  • 量化:NVFP4 W4A16

如需了解该模型的更多详情,请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。

试用 North Mini Code

您可以在 OpenCode 和我们的 Hugging Face Space (https://huggingface.co/spaces/CohereLabs/North-Mini-Code-1.0) 中,在下载权重之前试用 North Mini Code。

评估

image1 (https://cdn-uploads.huggingface.co/production/uploads/62668f725fb8d521d94d8451/xR7kZ3X9RKEZrbgD6hpG1.png)

基准测试方法 [点击展开]

  • 我们使用 SWE‑Bench Verified、SWE‑Bench Pro、Terminal‑Bench v2 和 Terminal‑Bench Hard 对 North Mini Code 的智能体编码能力进行基准测试。评估工具方面,SWE‑Bench 使用 Swe‑Agent harness v1.1.0,Terminal‑Bench v2 使用基于 Harbor 的 Tmux 会话实现的简单 ReAct harness(包含一个终端使用工具)。对于 Terminal Bench Hard,我们直接使用 Terminus‑2,遵循与 Artificial Analysis Intelligence Index 相同的方法,将 North‑Mini‑Code‑1.0 与其他模型进行比较。此外,我们还使用 SciCode 和 LiveCodeBench v6 作为工具使用之外的复杂代码生成基准测试。
  • 每个基准测试使用 3 个不同的随机种子运行,并报告平均基准性能,温度参数设为 1.0,top_p 设为 0.95。对于竞品模型,我们使用了公开报道的分数(来自原始报告或 Artificial Analysis Intelligence Index)。另外,Gemma4 在智能体编码任务上的分数由 Qwen 团队 (https://qwen.ai/blog?id=qwen3.6-35b-a3b) 提供。对于图中标注了 ((*)) 的缺失公开报告的基准结果,我们使用推荐的模型配置在内部运行。

使用方法

要在 transformers 中使用我们的模型,请使用我们的 BF16 模型权重。我们的 NVFP4_W4A16 检查点专为 vLLM 和 MLX‑VLM 设计,由于 transformers 缺乏原生 4 位支持,因此不兼容。

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#vllmvLLM

您可以在 vLLM 中运行该模型。在新版本发布前,请使用 vLLM 的主分支代码来运行 North Mini Code,准确的响应解析还需要安装 Cohere 的 melody 库。

uv pip install "git+https://github.com/vllm-project/vllm.git" uv pip install cohere_melody>=0.9.0

然后使用以下命令启动 vLLM 服务器:

vllm serve CohereLabs/North-Mini-Code-1.0-w4a16 \ -tp 1 \ --max-model-len 320000 \ --tool-call-parser cohere_command4 \ --reasoning-parser cohere_command4 \ --enable-auto-tool-choice

在 OpenCode 中使用本地部署的 North Mini Code:

请使用 OpenCode >= v1.17.0。

brew install anomalyco/tap/opencode

要在 Opencode 中使用本地部署的 North Mini Code,请使用以下配置(支持交错推理):

{ "$schema": "https://opencode.ai/config.json", "model": "vllm/CohereLabs/North-Mini-Code-1.0-w4a16", "provider": { "vllm": { "npm": "@ai-sdk/openai-compatible", "name": "Local vLLM server", "options": { "baseURL": "http://127.0.0.1:8000/v1", "apiKey": "EMPTY" }, "models": { "CohereLabs/North-Mini-Code-1.0-w4a16": { "name": "North-Mini-Code-1.0", "interleaved": { "field": "reasoning" }, "limit": { "context": 256000, "output": 64000 } } } } } }

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#mlx-vlmMLX‑VLM

您也可以在 MLX‑VLM 中运行该模型。在新版本发布前,请使用主分支代码。

uv pip install "git+https://github.com/Blaizzy/mlx-vlm.git@main"

然后使用以下命令启动 mlx_vlm 服务器:

mlx_vlm.server \ --model CohereLabs/North-Mini-Code-1.0-w4a16 \ --enable-thinking \ --thinking-start-token "<|START_THINKING|>" \ --thinking-end-token "<|END_THINKING|>"

Opencode 配置:

实际限制取决于您的设备。

{ "$schema": "https://opencode.ai/config.json", "model": "mlx-vlm/CohereLabs/North-Mini-Code-1.0-w4a16", "provider": { "mlx-vlm": { "npm": "@ai-sdk/openai-compatible", "name": "MLX VLM Local", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "EMPTY" }, "models": { "CohereLabs/North-Mini-Code-1.0-w4a16": { "name": "North-Mini-Code-1.0", "interleaved": { "field": "reasoning" }, "limit": { "context": 256000, "output": 64000 } } } } } }

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-details模型详情

输入:仅文本。 输出:模型生成文本。 模型架构:North‑Mini‑Code‑1.0 是一个仅解码器的 Transformer 稀疏混合专家(MoE)模型。它采用高效的注意力实现,在 3:1 的比例下交错使用滑动窗口注意力(RoPE)和全局注意力(无位置嵌入)。前馈模块是一个包含 128 个专家的 MoE 模块,每个 token 激活其中 8 个。每个专家模块是一个带有 SwiGLU 激活的前馈网络模块。路由器在 top‑k 选择之前对 logits 应用 sigmoid 激活函数。我们还在稀疏层之前使用了一个密集层。North‑Mini‑Code‑1.0 经过两阶段级联监督微调(SFT),随后使用可验证奖励的强化学习(RLVR)进行后训练,重点聚焦在智能体编码上。更多技术细节,请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。

量化方法:我们对该模型使用 NVFP4 W4A16 量化(4 位权重,16 位激活),实现了更小的内存占用(约 18‑20GB)和更快的推理速度,同时保持编码准确性。我们仅量化 MoE 专家,而注意力、密集层和路由器保持较高精度。由于专家包含模型的大部分参数,这能以最小的质量损失捕获大部分存储节省。为了保持质量,我们使用量化感知蒸馏(QAD),训练量化模型以匹配未量化模型的输出,在各项评估中实现了 >99% 的整体准确率恢复。由于仅量化了权重,此格式不需要原生 FP4 硬件,可在 Hopper 和 Ada 等前 Blackwell 时代的 GPU 上运行。

上下文长度:North‑Mini‑Code‑1.0 支持 256K 输入上下文长度和 64K 输出长度。

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-contact模型卡片联系方式

如果对本模型卡片中的详细信息有错误或额外问题,请联系 [[email protected]]。

相似文章

CohereLabs/North-Mini-Code-1.0

Hugging Face Models Trending

Cohere Labs 发布了 North Mini Code,一个拥有 30B 参数(3B 活跃)的开放权重模型,针对代码生成、智能体软件工程和终端任务进行了优化,基于 Apache 2.0 许可。

发布 Cohere North Mini Code

Reddit r/LocalLLaMA

Cohere正式发布North Mini Code编程模型,权重可在Hugging Face上获取,并支持vLLM和MLX部署。

推出 North Mini Code:Cohere 首款面向开发者的模型

Hugging Face Blog

Cohere 发布了 North Mini Code,这是一款 30B 参数的混合专家(MoE)模型,在 Apache 2.0 许可下拥有 3B 激活参数,专为智能体软件工程任务优化,在编程基准测试中性能优于同类尺寸模型。

unsloth/North-Mini-Code-1.0-GGUF · Hugging Face

Reddit r/LocalLLaMA

此页面托管了Cohere的North-Mini-Code-1.0模型的GGUF量化版本,这是一个30B-A3B MoE模型,针对代码生成和代理任务进行了优化。提供了从特定PR构建llama.cpp以支持cohere2moe架构的说明。