Mellum2 技术报告

Hugging Face Daily Papers 论文

摘要

Mellum 2 是一个由 JetBrains 开发的 12B 参数开源权重的 MoE 语言模型,具有 2.5B 活跃参数,专注于软件工程任务,并针对商用 GPU 上的高效推理进行了优化。

我们推出了 Mellum 2,一个开源权重的 12B 参数混合专家(MoE)语言模型,每个 token 包含 2.5B 个活跃参数。Mellum 2 是一个通用语言模型,专注于软件工程领域,涵盖代码生成与编辑、调试、多步推理、工具使用与函数调用、智能编码以及对话式编程辅助,它是之前专注于代码补全的 4B 密集参数 Mellum 模型的继任者。其架构基于混合专家(64 个专家,8 个活跃),结合了分组查询注意力(4 个 KV 头)、每四层中三层使用滑动窗口注意力,以及一个单多头令牌预测头,该头同时充当辅助预训练目标和用于推测解码的内置草稿模型;每个选择都通过消融实验进行了验证,并将商用 GPU 上的推理效率作为设计约束。预训练覆盖约 10.6 万亿个 token,采用三阶段课程,逐步将数据混合从多样化的网络数据转向经过筛选的代码和数学内容,并使用 Muon 优化器在 FP8 混合精度下进行优化,同时采用 Warmup-Hold-Decay 学习率调度,线性衰减至零。预训练基础模型通过逐层选择性 YaRN 扩展至 128K 上下文窗口,随后分两个阶段进行后训练(监督微调后接 RLVR),最终发布两个变体:一个直接回答的 Instruct 模型和一个在最终答案前输出显式推理过程的 Thinking 模型。在代码生成、数学与推理、工具使用、知识以及安全基准测试中,Mellum 2 与 4B-14B 范围内的开源权重基线模型相比具有竞争力,同时每个 token 的计算量仅为 2.5B 密集模型。我们在 Apache 2.0 许可下发布了基础、指令和思考检查点,以及这份关于其背后架构决策、数据流水线和训练方案的报告。
查看原文
查看缓存全文

缓存时间: 2026/06/01 15:20

论文页面 - Mellum2 技术报告

来源:https://huggingface.co/papers/2605.31268

摘要

Mellum 2 是一个开放权重的 120 亿参数混合专家语言模型,每个 token 激活 25 亿参数,专精于软件工程任务,并针对消费级 GPU 的推理效率进行了优化。

我们推出了 Mellum 2,一个开放权重的 120 亿参数混合专家(MoE)语言模型,每个 token 仅激活 25 亿参数。Mellum 2 是一个通用语言模型,专注于软件工程领域,涵盖代码生成与编辑、调试、多步推理、工具使用与函数调用、智能体编码以及对话式编程辅助等多个方面。它是之前专注于代码补全的 40 亿密集模型 Mellum 的继任者。其架构基于混合专家(64 个专家,8 个激活)构建,并结合了分组查询注意力(使用 4 个 KV 头)、每四层中三层应用的滑动窗口注意力,以及一个同时作为辅助预训练目标和内置草稿模型(用于推测解码)的多 token 预测头。每一项选择都通过了消融实验验证,并以消费级 GPU 上的推理效率作为设计约束。预训练阶段覆盖约 10.6 万亿 token,采用三阶段课程学习,逐步将数据混合从多样化网络数据转向精选的代码和数学内容,使用 Muon 优化器在 FP8 混合精度下进行优化,并采用带线性衰减至零的 Warmup-Hold-Decay 学习率调度。预训练基座模型通过逐层选择性 YaRN 扩展至 128K 上下文窗口,随后进行两阶段后训练(监督微调,接着是 RLVR),最终发布两个变体:直接回答的 Instruct 模型和先输出显式推理轨迹再给出最终答案的 Thinking 模型。在代码生成、数学与推理、工具使用、知识以及安全基准测试中,Mellum 2 与 4B-14B 范围内的开放权重基线模型表现相当,同时其每个 token 的计算量仅相当于一个 25 亿参数的密集模型。我们在 Apache 2.0 许可证下发布了基座模型、Instruct 模型和 Thinking 模型的检查点,以及这份关于其架构决策、数据流水线和训练方案的技术报告。

查看 arXiv 页面 (https://arxiv.org/abs/2605.31268)查看 PDF (https://arxiv.org/pdf/2605.31268)项目页面 (https://www.jetbrains.com/mellum/)添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.31268)

在您的智能体中获取本篇论文:

hf papers read 2605\.31268

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本篇论文的模型 6 个

JetBrains/Mellum2-12B-A2.5B-Thinking 文本生成• 120亿• 更新于约4小时前 • 80 • 13 (https://huggingface.co/JetBrains/Mellum2-12B-A2.5B-Thinking)

JetBrains/Mellum2-12B-A2.5B-Instruct 文本生成• 120亿• 更新于约4小时前 • 28 • 6 (https://huggingface.co/JetBrains/Mellum2-12B-A2.5B-Instruct)

JetBrains/Mellum2-12B-A2.5B-Thinking-SFT 文本生成• 120亿• 更新于约4小时前 • 5 (https://huggingface.co/JetBrains/Mellum2-12B-A2.5B-Thinking-SFT)

JetBrains/Mellum2-12B-A2.5B-Base 文本生成• 120亿• 更新于约4小时前 • 28 • 4 (https://huggingface.co/JetBrains/Mellum2-12B-A2.5B-Base)

浏览所有引用本篇论文的 6 个模型 (https://huggingface.co/models?other=arxiv:2605.31268)## 引用本篇论文的数据集 0 个

无数据集链接本篇论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.31268,即可从此页面建立链接。

引用本篇论文的 Space 应用 0 个

无 Space 应用链接本篇论文

在 Space 应用的 README.md 中引用 arxiv.org/abs/2605.31268,即可从此页面建立链接。

包含本篇论文的收藏集 0 个

无收藏集包含本篇论文

将本篇论文添加至一个收藏集 (https://huggingface.co/new-collection),即可从此页面建立链接。

相似文章

JetBrains 的 Mellum 2(阅读时间 49 分钟)

TLDR AI

JetBrains 发布 Mellum 2,这是一个 12B 参数的开源权重混合专家语言模型,专注于软件工程领域,在代码生成、推理和工具使用方面性能具有竞争力,基于 Apache 2.0 许可证发布。

Mellum 2 12B A2.5B

Reddit r/LocalLLaMA

JetBrains发布了Mellum 2 12B A2.5B,这是一个专注于编码的小型MoE模型,其推理性能与Qwen 3.5 9B相当,但在其他任务上较弱。

JetBrains/Mellum2-12B-A2.5B-Thinking

Hugging Face Models Trending

JetBrains releases Mellum2-12B-A2.5B-Thinking, an open-source Mixture-of-Experts reasoning model with 131k context length, trained with RLVR for explicit chain-of-thought reasoning.