@nickfrosst: 现在是个好日子提醒大家我们有一个Apache 2.0的编码模型，你可以在本地用20GB内存运行…

X AI KOLs Following 2026/06/26 17:48 模型

coding-model open-source apache-2.0 local-inference efficient code-generation cohere

摘要

Cohere Labs发布North Mini Code，一个拥有300亿参数（30亿活跃）的开源编码模型，协议为Apache 2.0，针对代码生成和智能体任务优化，可通过4位量化在20GB内存的本地运行。

现在是个好日子提醒大家我们有一个Apache 2.0的编码模型，你可以在本地用20GB内存永远免费运行。https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16… 这是一个4位量化版本，性能保持超过99%原始性能。

查看原文

查看缓存全文

缓存时间: 2026/06/27 07:54

看来今天是提醒大家的好日子：我们有一个基于 Apache 2.0 协议的代码模型，你可以在本地用 20GB 内存永久免费运行。https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16 … 这是一个 4 位量化版本，能够达到原版 99% 以上的性能。

CohereLabs/North-Mini-Code-1.0-w4a16 · Hugging Face

来源：https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-for-north-mini-codeNorth Mini Code 模型卡片

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-summary模型摘要

North Mini Code 是一个 30B-A3B 参数模型的开源研究发布版本，专门针对代码生成、自主软件工程和终端任务进行了优化。

开发者：Cohere (https://cohere.com/) 和 Cohere Labs (https://cohere.com/research)

联系点：Cohere Labs (https://cohere.com/research)
许可证：Apache 2.0
模型：North Mini Code
模型大小：总参数量 30B；激活参数量 3B
上下文长度：256K 输入 & 64K 最大输出
量化方式：NVFP4 W4A16

更多关于该模型的详细信息，请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。

尝试 North Mini Code

你可以在下载权重之前，通过 OpenCode 和我们托管的 Hugging Face Space (https://huggingface.co/spaces/CohereLabs/North-Mini-Code-1.0) 尝试 North Mini Code。

评估

image1 (https://cdn-uploads.huggingface.co/production/uploads/62668f725fb8d521d94d8451/xR7kZ3X9RKEZrbgD6hpG1.png)

基准测试方法 [点击展开]

我们使用 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2 和 Terminal-Bench Hard 对 North Mini Code 的自主编码能力进行基准测试。评估框架方面，SWE-Bench 使用 Swe-Agent 框架 v1.1.0，Terminal-Bench v2 使用一个基于 Harbor 的 Tmux 会话实现、仅包含一个终端工具调用的简单 ReAct 框架。Terminal Bench Hard 则直接使用 Terminus-2，遵循与 Artificial Analysis Intelligence Index 相同的方法论，将 North-Mini-Code-1.0 与其他模型进行比较。此外，我们还使用 SciCode 和 LiveCodeBench v6 作为工具使用之外的复杂代码生成基准测试。
每个基准测试使用 3 个不同的随机种子运行，并报告平均性能，其中 temperature=1.0，top_p=0.95。对于竞品模型，我们尽可能使用公开报告的分数（来源为原始报告或 Artificial Analysis Intelligence Index）。另外，Gemma4 在自主编码任务上的分数由 Qwen 团队 (https://qwen.ai/blog?id=qwen3.6-35b-a3b) 报告。对于图中标有 (*) 且缺少公开报告基准测试结果的模型，我们在内部使用推荐的模型配置进行运行。

使用方法

要在 transformers 中使用我们的模型，请使用我们的 BF16 模型权重。我们的 NVFP4_W4A16 检查点专为 vLLM 和 MLX-VLM 设计，由于不支持原生的 4 位量化，无法在 transformers 中使用。

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#vllmvLLM

你可以在 vLLM 中运行该模型。在新版本发布之前，请使用 vLLM 的主分支来运行 North Mini Code，同时正确的响应解析还需要安装 Cohere 的 melody 库。

uv pip install "git+https://github.com/vllm-project/vllm.git"
uv pip install cohere_melody>=0.9.0

然后，可以使用以下命令启动 vLLM 服务器：

vllm serve CohereLabs/North-Mini-Code-1.0-w4a16 \
  -tp 1 \
  --max-model-len 320000 \
  --tool-call-parser cohere_command4 \
  --reasoning-parser cohere_command4 \
  --enable-auto-tool-choice

在 OpenCode 中使用本地部署的 North Mini Code：

请使用 OpenCode > v1.17.0 版本。

brew install anomalyco/tap/opencode

要在 Opencode 中使用本地部署的 North Mini Code，请使用以下配置，该配置支持交错推理：

{
  "$schema": "https://opencode.ai/config.json",
  "model": "vllm/CohereLabs/North-Mini-Code-1.0-w4a16",
  "provider": {
    "vllm": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Local vLLM server",
      "options": {
        "baseURL": "http://127.0.0.1:8000/v1",
        "apiKey": "EMPTY"
      },
      "models": {
        "CohereLabs/North-Mini-Code-1.0-w4a16": {
          "name": "North-Mini-Code-1.0",
          "interleaved": {
            "field": "reasoning"
          },
          "limit": {
            "context": 256000,
            "output": 64000
          }
        }
      }
    }
  }
}

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#mlx-vlmMLX-VLM

你也可以在 MLX-VLM 中运行该模型。在新版本发布之前，请使用 MLX-VLM 的主分支来运行 North Mini Code。

uv pip install "git+https://github.com/Blaizzy/mlx-vlm.git@main"

然后，可以使用以下命令启动 mlx_vlm 服务器：

mlx_vlm.server \
  --model CohereLabs/North-Mini-Code-1.0-w4a16 \
  --enable-thinking \
  --thinking-start-token "<|START_THINKING|>" \
  --thinking-end-token "<|END_THINKING|>"

Opencode 配置：

实际限制取决于你的设备。

{
  "$schema": "https://opencode.ai/config.json",
  "model": "mlx-vlm/CohereLabs/North-Mini-Code-1.0-w4a16",
  "provider": {
    "mlx-vlm": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "MLX VLM Local",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1",
        "apiKey": "EMPTY"
      },
      "models": {
        "CohereLabs/North-Mini-Code-1.0-w4a16": {
          "name": "North-Mini-Code-1.0",
          "interleaved": {
            "field": "reasoning"
          },
          "limit": {
            "context": 256000,
            "output": 64000
          }
        }
      }
    }
  }
}

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-details模型细节

输入：仅文本。

输出：模型生成文本。

模型架构：North-Mini-Code-1.0 是一个仅解码器的 Transformer 稀疏混合专家（MoE）模型。它采用了高效的注意力实现，以 3:1 的比例交错使用带有 RoPE 的滑动窗口注意力和不带位置嵌入的全局注意力。前馈模块是一个包含 128 个专家的 MoE 模块，每个 token 激活其中的 8 个。每个专家模块是一个带有 SwiGLU 激活函数的 FFN 模块。路由器在 top-k 选择之前对 logits 应用 sigmoid 激活函数。在稀疏层之前我们还使用了一个单一稠密层。North-Mini-Code-1.0 经过了两阶段级联监督微调（SFT），随后使用可验证奖励的强化学习（RLVR）进行后训练，重点聚焦自主编码。更多技术细节请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。

量化方法：我们对该模型使用 NVFP4 W4A16 量化（4 位权重，16 位激活），这带来了更小的内存占用（约 18-20GB）和更快的推理速度，同时保持了编码准确性。我们仅对 MoE 专家进行量化，保持注意力层、稠密层和路由器的高精度。由于专家占据了模型大部分参数，这种方法在几乎不损失质量的前提下实现了主要的存储节省。为了保持质量，我们使用了量化感知蒸馏（QAD），训练量化模型以匹配未量化模型的输出，在我们的评估中实现了整体准确率恢复超过 99%。由于仅对权重进行量化，该格式不需要原生 FP4 硬件，可以在 Blackwell 之前的 GPU（如 Hopper 和 Ada）上运行。

上下文长度：North-Mini-Code-1.0 支持 256K 上下文长度和 64K 输出长度。

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-contact模型卡片联系方式

如需报告错误或对本模型卡片中的细节有进一步疑问，请联系 [[email protected]] (mailto:[email protected])。

@nickfrosst: 现在是个好日子提醒大家我们有一个Apache 2.0的编码模型，你可以在本地用20GB内存运行…

CohereLabs/North-Mini-Code-1.0-w4a16 · Hugging Face

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-for-north-mini-codeNorth Mini Code 模型卡片

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-summary模型摘要

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#vllmvLLM

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#mlx-vlmMLX-VLM

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-details模型细节

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-contact模型卡片联系方式

相似文章

@nickfrosst: 这个模型与 mythos 相反。它体积小、成本效益高、采用 Apache 2.0 许可、可本地部署。这就是 LLM 应该走的方向…

CohereLabs/North-Mini-Code-1.0

@cohere：介绍 Cohere 首个开源编码模型：North Mini Code Small，小巧高效，专为代理型性能设计…

推出 North Mini Code：Cohere 首款面向开发者的模型

North Mini Code 更新：4位量化 + Ollama + OpenRouter

提交意见反馈