Mellum2 技术报告
摘要
Mellum 2 是一个由 JetBrains 开发的 12B 参数开源权重的 MoE 语言模型,具有 2.5B 活跃参数,专注于软件工程任务,并针对商用 GPU 上的高效推理进行了优化。
查看缓存全文
缓存时间: 2026/06/01 15:20
论文页面 - Mellum2 技术报告
来源:https://huggingface.co/papers/2605.31268
摘要
Mellum 2 是一个开放权重的 120 亿参数混合专家语言模型,每个 token 激活 25 亿参数,专精于软件工程任务,并针对消费级 GPU 的推理效率进行了优化。
我们推出了 Mellum 2,一个开放权重的 120 亿参数混合专家(MoE)语言模型,每个 token 仅激活 25 亿参数。Mellum 2 是一个通用语言模型,专注于软件工程领域,涵盖代码生成与编辑、调试、多步推理、工具使用与函数调用、智能体编码以及对话式编程辅助等多个方面。它是之前专注于代码补全的 40 亿密集模型 Mellum 的继任者。其架构基于混合专家(64 个专家,8 个激活)构建,并结合了分组查询注意力(使用 4 个 KV 头)、每四层中三层应用的滑动窗口注意力,以及一个同时作为辅助预训练目标和内置草稿模型(用于推测解码)的多 token 预测头。每一项选择都通过了消融实验验证,并以消费级 GPU 上的推理效率作为设计约束。预训练阶段覆盖约 10.6 万亿 token,采用三阶段课程学习,逐步将数据混合从多样化网络数据转向精选的代码和数学内容,使用 Muon 优化器在 FP8 混合精度下进行优化,并采用带线性衰减至零的 Warmup-Hold-Decay 学习率调度。预训练基座模型通过逐层选择性 YaRN 扩展至 128K 上下文窗口,随后进行两阶段后训练(监督微调,接着是 RLVR),最终发布两个变体:直接回答的 Instruct 模型和先输出显式推理轨迹再给出最终答案的 Thinking 模型。在代码生成、数学与推理、工具使用、知识以及安全基准测试中,Mellum 2 与 4B-14B 范围内的开放权重基线模型表现相当,同时其每个 token 的计算量仅相当于一个 25 亿参数的密集模型。我们在 Apache 2.0 许可证下发布了基座模型、Instruct 模型和 Thinking 模型的检查点,以及这份关于其架构决策、数据流水线和训练方案的技术报告。
查看 arXiv 页面 (https://arxiv.org/abs/2605.31268)查看 PDF (https://arxiv.org/pdf/2605.31268)项目页面 (https://www.jetbrains.com/mellum/)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31268)
在您的智能体中获取本篇论文:
hf papers read 2605\.31268
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本篇论文的模型 6 个
JetBrains/Mellum2-12B-A2.5B-Thinking 文本生成• 120亿• 更新于约4小时前 • 80 • 13 (https://huggingface.co/JetBrains/Mellum2-12B-A2.5B-Thinking)
JetBrains/Mellum2-12B-A2.5B-Instruct 文本生成• 120亿• 更新于约4小时前 • 28 • 6 (https://huggingface.co/JetBrains/Mellum2-12B-A2.5B-Instruct)
JetBrains/Mellum2-12B-A2.5B-Thinking-SFT 文本生成• 120亿• 更新于约4小时前 • 5 (https://huggingface.co/JetBrains/Mellum2-12B-A2.5B-Thinking-SFT)
JetBrains/Mellum2-12B-A2.5B-Base 文本生成• 120亿• 更新于约4小时前 • 28 • 4 (https://huggingface.co/JetBrains/Mellum2-12B-A2.5B-Base)
浏览所有引用本篇论文的 6 个模型 (https://huggingface.co/models?other=arxiv:2605.31268)## 引用本篇论文的数据集 0 个
无数据集链接本篇论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.31268,即可从此页面建立链接。
引用本篇论文的 Space 应用 0 个
无 Space 应用链接本篇论文
在 Space 应用的 README.md 中引用 arxiv.org/abs/2605.31268,即可从此页面建立链接。
包含本篇论文的收藏集 0 个
无收藏集包含本篇论文
将本篇论文添加至一个收藏集 (https://huggingface.co/new-collection),即可从此页面建立链接。
相似文章
JetBrains 的 Mellum 2(阅读时间 49 分钟)
JetBrains 发布 Mellum 2,这是一个 12B 参数的开源权重混合专家语言模型,专注于软件工程领域,在代码生成、推理和工具使用方面性能具有竞争力,基于 Apache 2.0 许可证发布。
Mellum 2 12B A2.5B
JetBrains发布了Mellum 2 12B A2.5B,这是一个专注于编码的小型MoE模型,其推理性能与Qwen 3.5 9B相当,但在其他任务上较弱。
JetBrains 推出 Mellum2:一款面向代码生成与推理任务的 12B 参数混合专家模型
JetBrains 推出 Mellum2,这是一款基于 12B 参数的混合专家模型,专为代码生成和推理任务优化,重点支持私有部署并集成到开发工作流中。
Mellum2 开源:一款适用于 AI 工作流的快速模型 | JetBrains AI 博客
JetBrains 将 Mellum2 开源,这是一个快速的 12B 混合专家模型,专为软件工程中的低延迟 AI 工作流设计,遵循 Apache 2.0 许可证。
JetBrains/Mellum2-12B-A2.5B-Thinking
JetBrains releases Mellum2-12B-A2.5B-Thinking, an open-source Mixture-of-Experts reasoning model with 131k context length, trained with RLVR for explicit chain-of-thought reasoning.