@nickfrosst: 现在是个好日子提醒大家我们有一个Apache 2.0的编码模型,你可以在本地用20GB内存运行…

X AI KOLs Following 模型

摘要

Cohere Labs发布North Mini Code,一个拥有300亿参数(30亿活跃)的开源编码模型,协议为Apache 2.0,针对代码生成和智能体任务优化,可通过4位量化在20GB内存的本地运行。

现在是个好日子提醒大家我们有一个Apache 2.0的编码模型,你可以在本地用20GB内存永远免费运行。https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16… 这是一个4位量化版本,性能保持超过99%原始性能。
查看原文
查看缓存全文

缓存时间: 2026/06/27 07:54

看来今天是提醒大家的好日子:我们有一个基于 Apache 2.0 协议的代码模型,你可以在本地用 20GB 内存永久免费运行。https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16 … 这是一个 4 位量化版本,能够达到原版 99% 以上的性能。


CohereLabs/North-Mini-Code-1.0-w4a16 · Hugging Face

来源:https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-for-north-mini-codeNorth Mini Code 模型卡片

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-summary模型摘要

North Mini Code 是一个 30B-A3B 参数模型的开源研究发布版本,专门针对代码生成、自主软件工程和终端任务进行了优化。

开发者:Cohere (https://cohere.com/) 和 Cohere Labs (https://cohere.com/research)

  • 联系点:Cohere Labs (https://cohere.com/research)
  • 许可证:Apache 2.0
  • 模型:North Mini Code
  • 模型大小:总参数量 30B;激活参数量 3B
  • 上下文长度:256K 输入 & 64K 最大输出
  • 量化方式:NVFP4 W4A16

更多关于该模型的详细信息,请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。

尝试 North Mini Code

你可以在下载权重之前,通过 OpenCode 和我们托管的 Hugging Face Space (https://huggingface.co/spaces/CohereLabs/North-Mini-Code-1.0) 尝试 North Mini Code。

评估

image1 (https://cdn-uploads.huggingface.co/production/uploads/62668f725fb8d521d94d8451/xR7kZ3X9RKEZrbgD6hpG1.png)

基准测试方法 [点击展开]

  • 我们使用 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2 和 Terminal-Bench Hard 对 North Mini Code 的自主编码能力进行基准测试。评估框架方面,SWE-Bench 使用 Swe-Agent 框架 v1.1.0,Terminal-Bench v2 使用一个基于 Harbor 的 Tmux 会话实现、仅包含一个终端工具调用的简单 ReAct 框架。Terminal Bench Hard 则直接使用 Terminus-2,遵循与 Artificial Analysis Intelligence Index 相同的方法论,将 North-Mini-Code-1.0 与其他模型进行比较。此外,我们还使用 SciCode 和 LiveCodeBench v6 作为工具使用之外的复杂代码生成基准测试。
  • 每个基准测试使用 3 个不同的随机种子运行,并报告平均性能,其中 temperature=1.0,top_p=0.95。对于竞品模型,我们尽可能使用公开报告的分数(来源为原始报告或 Artificial Analysis Intelligence Index)。另外,Gemma4 在自主编码任务上的分数由 Qwen 团队 (https://qwen.ai/blog?id=qwen3.6-35b-a3b) 报告。对于图中标有 (*) 且缺少公开报告基准测试结果的模型,我们在内部使用推荐的模型配置进行运行。

使用方法

要在 transformers 中使用我们的模型,请使用我们的 BF16 模型权重。我们的 NVFP4_W4A16 检查点专为 vLLM 和 MLX-VLM 设计,由于不支持原生的 4 位量化,无法在 transformers 中使用。

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#vllmvLLM

你可以在 vLLM 中运行该模型。在新版本发布之前,请使用 vLLM 的主分支来运行 North Mini Code,同时正确的响应解析还需要安装 Cohere 的 melody 库。

uv pip install "git+https://github.com/vllm-project/vllm.git"
uv pip install cohere_melody>=0.9.0

然后,可以使用以下命令启动 vLLM 服务器:

vllm serve CohereLabs/North-Mini-Code-1.0-w4a16 \
  -tp 1 \
  --max-model-len 320000 \
  --tool-call-parser cohere_command4 \
  --reasoning-parser cohere_command4 \
  --enable-auto-tool-choice

在 OpenCode 中使用本地部署的 North Mini Code:

请使用 OpenCode > v1.17.0 版本。

brew install anomalyco/tap/opencode

要在 Opencode 中使用本地部署的 North Mini Code,请使用以下配置,该配置支持交错推理:

{
  "$schema": "https://opencode.ai/config.json",
  "model": "vllm/CohereLabs/North-Mini-Code-1.0-w4a16",
  "provider": {
    "vllm": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Local vLLM server",
      "options": {
        "baseURL": "http://127.0.0.1:8000/v1",
        "apiKey": "EMPTY"
      },
      "models": {
        "CohereLabs/North-Mini-Code-1.0-w4a16": {
          "name": "North-Mini-Code-1.0",
          "interleaved": {
            "field": "reasoning"
          },
          "limit": {
            "context": 256000,
            "output": 64000
          }
        }
      }
    }
  }
}

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#mlx-vlmMLX-VLM

你也可以在 MLX-VLM 中运行该模型。在新版本发布之前,请使用 MLX-VLM 的主分支来运行 North Mini Code。

uv pip install "git+https://github.com/Blaizzy/mlx-vlm.git@main"

然后,可以使用以下命令启动 mlx_vlm 服务器:

mlx_vlm.server \
  --model CohereLabs/North-Mini-Code-1.0-w4a16 \
  --enable-thinking \
  --thinking-start-token "<|START_THINKING|>" \
  --thinking-end-token "<|END_THINKING|>"

Opencode 配置:

实际限制取决于你的设备。

{
  "$schema": "https://opencode.ai/config.json",
  "model": "mlx-vlm/CohereLabs/North-Mini-Code-1.0-w4a16",
  "provider": {
    "mlx-vlm": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "MLX VLM Local",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1",
        "apiKey": "EMPTY"
      },
      "models": {
        "CohereLabs/North-Mini-Code-1.0-w4a16": {
          "name": "North-Mini-Code-1.0",
          "interleaved": {
            "field": "reasoning"
          },
          "limit": {
            "context": 256000,
            "output": 64000
          }
        }
      }
    }
  }
}

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-details模型细节

输入:仅文本。

输出:模型生成文本。

模型架构:North-Mini-Code-1.0 是一个仅解码器的 Transformer 稀疏混合专家(MoE)模型。它采用了高效的注意力实现,以 3:1 的比例交错使用带有 RoPE 的滑动窗口注意力和不带位置嵌入的全局注意力。前馈模块是一个包含 128 个专家的 MoE 模块,每个 token 激活其中的 8 个。每个专家模块是一个带有 SwiGLU 激活函数的 FFN 模块。路由器在 top-k 选择之前对 logits 应用 sigmoid 激活函数。在稀疏层之前我们还使用了一个单一稠密层。North-Mini-Code-1.0 经过了两阶段级联监督微调(SFT),随后使用可验证奖励的强化学习(RLVR)进行后训练,重点聚焦自主编码。更多技术细节请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。

量化方法:我们对该模型使用 NVFP4 W4A16 量化(4 位权重,16 位激活),这带来了更小的内存占用(约 18-20GB)和更快的推理速度,同时保持了编码准确性。我们仅对 MoE 专家进行量化,保持注意力层、稠密层和路由器的高精度。由于专家占据了模型大部分参数,这种方法在几乎不损失质量的前提下实现了主要的存储节省。为了保持质量,我们使用了量化感知蒸馏(QAD),训练量化模型以匹配未量化模型的输出,在我们的评估中实现了整体准确率恢复超过 99%。由于仅对权重进行量化,该格式不需要原生 FP4 硬件,可以在 Blackwell 之前的 GPU(如 Hopper 和 Ada)上运行。

上下文长度:North-Mini-Code-1.0 支持 256K 上下文长度和 64K 输出长度。

https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-contact模型卡片联系方式

如需报告错误或对本模型卡片中的细节有进一步疑问,请联系 [[email protected]] (mailto:[email protected])。

相似文章

CohereLabs/North-Mini-Code-1.0

Hugging Face Models Trending

Cohere Labs 发布了 North Mini Code,一个拥有 30B 参数(3B 活跃)的开放权重模型,针对代码生成、智能体软件工程和终端任务进行了优化,基于 Apache 2.0 许可。

推出 North Mini Code:Cohere 首款面向开发者的模型

Hugging Face Blog

Cohere 发布了 North Mini Code,这是一款 30B 参数的混合专家(MoE)模型,在 Apache 2.0 许可下拥有 3B 激活参数,专为智能体软件工程任务优化,在编程基准测试中性能优于同类尺寸模型。