@nv_pavlichenko: 今天我们要发布Mellum2:我们的第一个“严肃”的大型语言模型。这是一个12B参数的A2.5B MoE(混合专家)大型语言模型,预训练了约11T个token,并进行了后续训练……

X AI KOLs Timeline 模型

摘要

发布Mellum2,一个12B参数的A2.5B MoE大型语言模型,预训练了约11T个token,并使用RLVR进行了后训练。同时发布了基础版、SFT和RL检查点,以及一份技术报告。

今天我们要发布Mellum2:我们的第一个“严肃”的大型语言模型。 这是一个12B参数的A2.5B MoE大型语言模型,预训练了约11T个token,并使用RLVR进行了后训练。 我很自豪能够领导团队在过去6个月里努力完成这个项目。 我们发布了基础版/SFT/RL检查点以及一篇技术报告(网址:https://t.co/Zj2GusGmYP)
查看原文
查看缓存全文

缓存时间: 2026/06/01 15:46

今天我们发布了 Mellum2:我们的第一个“正经”大语言模型。

这是一个 12B A2.5B MoE 模型,在约 11T token 上预训练,并使用 RLVR 进行后训练。 我很自豪能领导过去六个月里致力于此的团队。

我们发布了 base/SFT/RL 检查点以及一份技术报告:https://t.co/Zj2GusGmYP

相似文章

JetBrains 的 Mellum 2(阅读时间 49 分钟)

TLDR AI

JetBrains 发布 Mellum 2,这是一个 12B 参数的开源权重混合专家语言模型,专注于软件工程领域,在代码生成、推理和工具使用方面性能具有竞争力,基于 Apache 2.0 许可证发布。

Mellum2 技术报告

Hugging Face Daily Papers

Mellum 2 是一个由 JetBrains 开发的 12B 参数开源权重的 MoE 语言模型,具有 2.5B 活跃参数,专注于软件工程任务,并针对商用 GPU 上的高效推理进行了优化。

Mellum 2 12B A2.5B

Reddit r/LocalLLaMA

JetBrains发布了Mellum 2 12B A2.5B,这是一个专注于编码的小型MoE模型,其推理性能与Qwen 3.5 9B相当,但在其他任务上较弱。