North Mini Code 更新：4位量化 + Ollama + OpenRouter

Reddit r/LocalLLaMA 2026/06/18 18:09 模型

cohere code-generation 4-bit-quantization moe open-weights agentic-coding ollama openrouter

摘要

Cohere 发布 North Mini Code，一个30B-A3B开源权重模型，采用4位量化，用于代码生成和智能体编码任务，支持256K上下文。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/18 19:34

CohereLabs/North-Mini-Code-1.0-w4a16 · Hugging Face

来源：https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-for-north-mini-codeNorth Mini Code 模型卡片

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-summary模型摘要

North Mini Code 是一个开放权重的研究发布版模型，拥有 30B-A3B 参数，针对代码生成、智能体软件工程和终端任务进行了优化。

开发者：Cohere (https://cohere.com/) 和 Cohere Labs (https://cohere.com/research)

联系方式：Cohere Labs (https://cohere.com/research)
许可协议：Apache 2.0
模型：North Mini Code
模型大小：总计 30B；活跃 3B
上下文长度：256K 输入，64K 最大输出
量化：NVFP4 W4A16

如需了解该模型的更多详情，请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。

试用 North Mini Code

您可以在 OpenCode 和我们的 Hugging Face Space (https://huggingface.co/spaces/CohereLabs/North-Mini-Code-1.0) 中，在下载权重之前试用 North Mini Code。

评估

image1 (https://cdn-uploads.huggingface.co/production/uploads/62668f725fb8d521d94d8451/xR7kZ3X9RKEZrbgD6hpG1.png)

基准测试方法 [点击展开]

我们使用 SWE‑Bench Verified、SWE‑Bench Pro、Terminal‑Bench v2 和 Terminal‑Bench Hard 对 North Mini Code 的智能体编码能力进行基准测试。评估工具方面，SWE‑Bench 使用 Swe‑Agent harness v1.1.0，Terminal‑Bench v2 使用基于 Harbor 的 Tmux 会话实现的简单 ReAct harness（包含一个终端使用工具）。对于 Terminal Bench Hard，我们直接使用 Terminus‑2，遵循与 Artificial Analysis Intelligence Index 相同的方法，将 North‑Mini‑Code‑1.0 与其他模型进行比较。此外，我们还使用 SciCode 和 LiveCodeBench v6 作为工具使用之外的复杂代码生成基准测试。
每个基准测试使用 3 个不同的随机种子运行，并报告平均基准性能，温度参数设为 1.0，top_p 设为 0.95。对于竞品模型，我们使用了公开报道的分数（来自原始报告或 Artificial Analysis Intelligence Index）。另外，Gemma4 在智能体编码任务上的分数由 Qwen 团队 (https://qwen.ai/blog?id=qwen3.6-35b-a3b) 提供。对于图中标注了 ((*)) 的缺失公开报告的基准结果，我们使用推荐的模型配置在内部运行。

使用方法

要在 transformers 中使用我们的模型，请使用我们的 BF16 模型权重。我们的 NVFP4_W4A16 检查点专为 vLLM 和 MLX‑VLM 设计，由于 transformers 缺乏原生 4 位支持，因此不兼容。

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#vllmvLLM

您可以在 vLLM 中运行该模型。在新版本发布前，请使用 vLLM 的主分支代码来运行 North Mini Code，准确的响应解析还需要安装 Cohere 的 melody 库。

uv pip install "git+https://github.com/vllm-project/vllm.git" uv pip install cohere_melody>=0.9.0

然后使用以下命令启动 vLLM 服务器：

vllm serve CohereLabs/North-Mini-Code-1.0-w4a16 \ -tp 1 \ --max-model-len 320000 \ --tool-call-parser cohere_command4 \ --reasoning-parser cohere_command4 \ --enable-auto-tool-choice

在 OpenCode 中使用本地部署的 North Mini Code：

请使用 OpenCode >= v1.17.0。

brew install anomalyco/tap/opencode

要在 Opencode 中使用本地部署的 North Mini Code，请使用以下配置（支持交错推理）：

{ "$schema": "https://opencode.ai/config.json", "model": "vllm/CohereLabs/North-Mini-Code-1.0-w4a16", "provider": { "vllm": { "npm": "@ai-sdk/openai-compatible", "name": "Local vLLM server", "options": { "baseURL": "http://127.0.0.1:8000/v1", "apiKey": "EMPTY" }, "models": { "CohereLabs/North-Mini-Code-1.0-w4a16": { "name": "North-Mini-Code-1.0", "interleaved": { "field": "reasoning" }, "limit": { "context": 256000, "output": 64000 } } } } } }

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#mlx-vlmMLX‑VLM

您也可以在 MLX‑VLM 中运行该模型。在新版本发布前，请使用主分支代码。

uv pip install "git+https://github.com/Blaizzy/mlx-vlm.git@main"

然后使用以下命令启动 mlx_vlm 服务器：

mlx_vlm.server \ --model CohereLabs/North-Mini-Code-1.0-w4a16 \ --enable-thinking \ --thinking-start-token "<|START_THINKING|>" \ --thinking-end-token "<|END_THINKING|>"

Opencode 配置：

实际限制取决于您的设备。

{ "$schema": "https://opencode.ai/config.json", "model": "mlx-vlm/CohereLabs/North-Mini-Code-1.0-w4a16", "provider": { "mlx-vlm": { "npm": "@ai-sdk/openai-compatible", "name": "MLX VLM Local", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "EMPTY" }, "models": { "CohereLabs/North-Mini-Code-1.0-w4a16": { "name": "North-Mini-Code-1.0", "interleaved": { "field": "reasoning" }, "limit": { "context": 256000, "output": 64000 } } } } } }

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-details模型详情

输入：仅文本。输出：模型生成文本。 模型架构：North‑Mini‑Code‑1.0 是一个仅解码器的 Transformer 稀疏混合专家（MoE）模型。它采用高效的注意力实现，在 3:1 的比例下交错使用滑动窗口注意力（RoPE）和全局注意力（无位置嵌入）。前馈模块是一个包含 128 个专家的 MoE 模块，每个 token 激活其中 8 个。每个专家模块是一个带有 SwiGLU 激活的前馈网络模块。路由器在 top‑k 选择之前对 logits 应用 sigmoid 激活函数。我们还在稀疏层之前使用了一个密集层。North‑Mini‑Code‑1.0 经过两阶段级联监督微调（SFT），随后使用可验证奖励的强化学习（RLVR）进行后训练，重点聚焦在智能体编码上。更多技术细节，请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。

量化方法：我们对该模型使用 NVFP4 W4A16 量化（4 位权重，16 位激活），实现了更小的内存占用（约 18‑20GB）和更快的推理速度，同时保持编码准确性。我们仅量化 MoE 专家，而注意力、密集层和路由器保持较高精度。由于专家包含模型的大部分参数，这能以最小的质量损失捕获大部分存储节省。为了保持质量，我们使用量化感知蒸馏（QAD），训练量化模型以匹配未量化模型的输出，在各项评估中实现了 >99% 的整体准确率恢复。由于仅量化了权重，此格式不需要原生 FP4 硬件，可在 Hopper 和 Ada 等前 Blackwell 时代的 GPU 上运行。

上下文长度：North‑Mini‑Code‑1.0 支持 256K 输入上下文长度和 64K 输出长度。

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-contact模型卡片联系方式

如果对本模型卡片中的详细信息有错误或额外问题，请联系 [[email protected]]。

North Mini Code 更新：4位量化 + Ollama + OpenRouter

CohereLabs/North-Mini-Code-1.0-w4a16 · Hugging Face

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-for-north-mini-codeNorth Mini Code 模型卡片

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-summary模型摘要

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#vllmvLLM

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#mlx-vlmMLX‑VLM

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-details模型详情

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-contact模型卡片联系方式

相似文章

CohereLabs/North-Mini-Code-1.0

发布 Cohere North Mini Code

推出 North Mini Code：Cohere 首款面向开发者的模型

@cohere：介绍 Cohere 首个开源编码模型：North Mini Code Small，小巧高效，专为代理型性能设计…

unsloth/North-Mini-Code-1.0-GGUF · Hugging Face

提交意见反馈