@nv_pavlichenko: 今天我们要发布Mellum2：我们的第一个“严肃”的大型语言模型。这是一个12B参数的A2.5B MoE（混合专家）大型语言模型，预训练了约11T个token，并进行了后续训练……

X AI KOLs Timeline 2026/06/01 13:24 模型

llm mixture-of-experts rlvr open-source pre-training fine-tuning

摘要

发布Mellum2，一个12B参数的A2.5B MoE大型语言模型，预训练了约11T个token，并使用RLVR进行了后训练。同时发布了基础版、SFT和RL检查点，以及一份技术报告。

今天我们要发布Mellum2：我们的第一个“严肃”的大型语言模型。这是一个12B参数的A2.5B MoE大型语言模型，预训练了约11T个token，并使用RLVR进行了后训练。我很自豪能够领导团队在过去6个月里努力完成这个项目。我们发布了基础版/SFT/RL检查点以及一篇技术报告（网址：https://t.co/Zj2GusGmYP）

查看原文

查看缓存全文

缓存时间: 2026/06/01 15:46

今天我们发布了 Mellum2：我们的第一个“正经”大语言模型。

这是一个 12B A2.5B MoE 模型，在约 11T token 上预训练，并使用 RLVR 进行后训练。我很自豪能领导过去六个月里致力于此的团队。

我们发布了 base/SFT/RL 检查点以及一份技术报告：https://t.co/Zj2GusGmYP

相似文章

JetBrains 的 Mellum 2（阅读时间 49 分钟）

TLDR AI

JetBrains 发布 Mellum 2，这是一个 12B 参数的开源权重混合专家语言模型，专注于软件工程领域，在代码生成、推理和工具使用方面性能具有竞争力，基于 Apache 2.0 许可证发布。

Mellum2 技术报告

Hugging Face Daily Papers

Mellum 2 是一个由 JetBrains 开发的 12B 参数开源权重的 MoE 语言模型，具有 2.5B 活跃参数，专注于软件工程任务，并针对商用 GPU 上的高效推理进行了优化。

Mellum 2 12B A2.5B

Reddit r/LocalLLaMA

JetBrains发布了Mellum 2 12B A2.5B，这是一个专注于编码的小型MoE模型，其推理性能与Qwen 3.5 9B相当，但在其他任务上较弱。

@vllm_project: vLLM v0.21.0 发布！367 次提交，来自 202 位贡献者（其中 49 位新贡献者）。亮点：KV 卸载 + HMA、带思考预算的推测解码（适用于推理模型）……

X AI KOLs Following

vLLM v0.21.0 已发布，新增 KV 卸载 + HMA、面向推理模型的带思考预算的推测解码、适用于 DSR1/Kimi K2.5 的 Blackwell 上的 TOKENSPEED_MLA、Mooncake 分布式 KV、DeepSeek V4 流水线并行，以及 C++20 + Transformers v5 基线。

@vllm_project: 今天我们很高兴推出vime——一个在vLLM生态系统中用于LLM后训练的简单、稳定且高效的RL框架……