@nickfrosst: 现在是个好日子提醒大家我们有一个Apache 2.0的编码模型,你可以在本地用20GB内存运行…
摘要
Cohere Labs发布North Mini Code,一个拥有300亿参数(30亿活跃)的开源编码模型,协议为Apache 2.0,针对代码生成和智能体任务优化,可通过4位量化在20GB内存的本地运行。
查看缓存全文
缓存时间: 2026/06/27 07:54
看来今天是提醒大家的好日子:我们有一个基于 Apache 2.0 协议的代码模型,你可以在本地用 20GB 内存永久免费运行。https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16 … 这是一个 4 位量化版本,能够达到原版 99% 以上的性能。
CohereLabs/North-Mini-Code-1.0-w4a16 · Hugging Face
来源:https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16
https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-for-north-mini-codeNorth Mini Code 模型卡片
https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-summary模型摘要
North Mini Code 是一个 30B-A3B 参数模型的开源研究发布版本,专门针对代码生成、自主软件工程和终端任务进行了优化。
开发者:Cohere (https://cohere.com/) 和 Cohere Labs (https://cohere.com/research)
- 联系点:Cohere Labs (https://cohere.com/research)
- 许可证:Apache 2.0
- 模型:North Mini Code
- 模型大小:总参数量 30B;激活参数量 3B
- 上下文长度:256K 输入 & 64K 最大输出
- 量化方式:NVFP4 W4A16
更多关于该模型的详细信息,请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。
尝试 North Mini Code
你可以在下载权重之前,通过 OpenCode 和我们托管的 Hugging Face Space (https://huggingface.co/spaces/CohereLabs/North-Mini-Code-1.0) 尝试 North Mini Code。
评估
image1 (https://cdn-uploads.huggingface.co/production/uploads/62668f725fb8d521d94d8451/xR7kZ3X9RKEZrbgD6hpG1.png)
基准测试方法 [点击展开]
- 我们使用 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench v2 和 Terminal-Bench Hard 对 North Mini Code 的自主编码能力进行基准测试。评估框架方面,SWE-Bench 使用 Swe-Agent 框架 v1.1.0,Terminal-Bench v2 使用一个基于 Harbor 的 Tmux 会话实现、仅包含一个终端工具调用的简单 ReAct 框架。Terminal Bench Hard 则直接使用 Terminus-2,遵循与 Artificial Analysis Intelligence Index 相同的方法论,将 North-Mini-Code-1.0 与其他模型进行比较。此外,我们还使用 SciCode 和 LiveCodeBench v6 作为工具使用之外的复杂代码生成基准测试。
- 每个基准测试使用 3 个不同的随机种子运行,并报告平均性能,其中 temperature=1.0,top_p=0.95。对于竞品模型,我们尽可能使用公开报告的分数(来源为原始报告或 Artificial Analysis Intelligence Index)。另外,Gemma4 在自主编码任务上的分数由 Qwen 团队 (https://qwen.ai/blog?id=qwen3.6-35b-a3b) 报告。对于图中标有 (*) 且缺少公开报告基准测试结果的模型,我们在内部使用推荐的模型配置进行运行。
使用方法
要在 transformers 中使用我们的模型,请使用我们的 BF16 模型权重。我们的 NVFP4_W4A16 检查点专为 vLLM 和 MLX-VLM 设计,由于不支持原生的 4 位量化,无法在 transformers 中使用。
https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#vllmvLLM
你可以在 vLLM 中运行该模型。在新版本发布之前,请使用 vLLM 的主分支来运行 North Mini Code,同时正确的响应解析还需要安装 Cohere 的 melody 库。
uv pip install "git+https://github.com/vllm-project/vllm.git"
uv pip install cohere_melody>=0.9.0
然后,可以使用以下命令启动 vLLM 服务器:
vllm serve CohereLabs/North-Mini-Code-1.0-w4a16 \
-tp 1 \
--max-model-len 320000 \
--tool-call-parser cohere_command4 \
--reasoning-parser cohere_command4 \
--enable-auto-tool-choice
在 OpenCode 中使用本地部署的 North Mini Code:
请使用 OpenCode > v1.17.0 版本。
brew install anomalyco/tap/opencode
要在 Opencode 中使用本地部署的 North Mini Code,请使用以下配置,该配置支持交错推理:
{
"$schema": "https://opencode.ai/config.json",
"model": "vllm/CohereLabs/North-Mini-Code-1.0-w4a16",
"provider": {
"vllm": {
"npm": "@ai-sdk/openai-compatible",
"name": "Local vLLM server",
"options": {
"baseURL": "http://127.0.0.1:8000/v1",
"apiKey": "EMPTY"
},
"models": {
"CohereLabs/North-Mini-Code-1.0-w4a16": {
"name": "North-Mini-Code-1.0",
"interleaved": {
"field": "reasoning"
},
"limit": {
"context": 256000,
"output": 64000
}
}
}
}
}
}
https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#mlx-vlmMLX-VLM
你也可以在 MLX-VLM 中运行该模型。在新版本发布之前,请使用 MLX-VLM 的主分支来运行 North Mini Code。
uv pip install "git+https://github.com/Blaizzy/mlx-vlm.git@main"
然后,可以使用以下命令启动 mlx_vlm 服务器:
mlx_vlm.server \
--model CohereLabs/North-Mini-Code-1.0-w4a16 \
--enable-thinking \
--thinking-start-token "<|START_THINKING|>" \
--thinking-end-token "<|END_THINKING|>"
Opencode 配置:
实际限制取决于你的设备。
{
"$schema": "https://opencode.ai/config.json",
"model": "mlx-vlm/CohereLabs/North-Mini-Code-1.0-w4a16",
"provider": {
"mlx-vlm": {
"npm": "@ai-sdk/openai-compatible",
"name": "MLX VLM Local",
"options": {
"baseURL": "http://127.0.0.1:8080/v1",
"apiKey": "EMPTY"
},
"models": {
"CohereLabs/North-Mini-Code-1.0-w4a16": {
"name": "North-Mini-Code-1.0",
"interleaved": {
"field": "reasoning"
},
"limit": {
"context": 256000,
"output": 64000
}
}
}
}
}
}
https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-details模型细节
输入:仅文本。
输出:模型生成文本。
模型架构:North-Mini-Code-1.0 是一个仅解码器的 Transformer 稀疏混合专家(MoE)模型。它采用了高效的注意力实现,以 3:1 的比例交错使用带有 RoPE 的滑动窗口注意力和不带位置嵌入的全局注意力。前馈模块是一个包含 128 个专家的 MoE 模块,每个 token 激活其中的 8 个。每个专家模块是一个带有 SwiGLU 激活函数的 FFN 模块。路由器在 top-k 选择之前对 logits 应用 sigmoid 激活函数。在稀疏层之前我们还使用了一个单一稠密层。North-Mini-Code-1.0 经过了两阶段级联监督微调(SFT),随后使用可验证奖励的强化学习(RLVR)进行后训练,重点聚焦自主编码。更多技术细节请查看我们的博客文章 (https://huggingface.co/blog/CohereLabs/introducing-north-mini-code)。
量化方法:我们对该模型使用 NVFP4 W4A16 量化(4 位权重,16 位激活),这带来了更小的内存占用(约 18-20GB)和更快的推理速度,同时保持了编码准确性。我们仅对 MoE 专家进行量化,保持注意力层、稠密层和路由器的高精度。由于专家占据了模型大部分参数,这种方法在几乎不损失质量的前提下实现了主要的存储节省。为了保持质量,我们使用了量化感知蒸馏(QAD),训练量化模型以匹配未量化模型的输出,在我们的评估中实现了整体准确率恢复超过 99%。由于仅对权重进行量化,该格式不需要原生 FP4 硬件,可以在 Blackwell 之前的 GPU(如 Hopper 和 Ada)上运行。
上下文长度:North-Mini-Code-1.0 支持 256K 上下文长度和 64K 输出长度。
https://huggingface.co/CohereLabs/North-Mini-Code-1.0-w4a16#model-card-contact模型卡片联系方式
如需报告错误或对本模型卡片中的细节有进一步疑问,请联系 [[email protected]] (mailto:[email protected])。
相似文章
@nickfrosst: 这个模型与 mythos 相反。它体积小、成本效益高、采用 Apache 2.0 许可、可本地部署。这就是 LLM 应该走的方向…
Cohere 发布了 North Mini Code,这是其首个基于 Apache 2.0 的开源编码模型,设计小巧、成本效益高、可本地部署,并专注于代理性能。
CohereLabs/North-Mini-Code-1.0
Cohere Labs 发布了 North Mini Code,一个拥有 30B 参数(3B 活跃)的开放权重模型,针对代码生成、智能体软件工程和终端任务进行了优化,基于 Apache 2.0 许可。
@cohere:介绍 Cohere 首个开源编码模型:North Mini Code Small,小巧高效,专为代理型性能设计…
Cohere 发布了其首个开源编码模型 North Mini Code Small,专为高效的代理型性能和社区反馈而设计。
推出 North Mini Code:Cohere 首款面向开发者的模型
Cohere 发布了 North Mini Code,这是一款 30B 参数的混合专家(MoE)模型,在 Apache 2.0 许可下拥有 3B 激活参数,专为智能体软件工程任务优化,在编程基准测试中性能优于同类尺寸模型。
North Mini Code 更新:4位量化 + Ollama + OpenRouter
Cohere 发布 North Mini Code,一个30B-A3B开源权重模型,采用4位量化,用于代码生成和智能体编码任务,支持256K上下文。