@nv_pavlichenko: 今天我们要发布Mellum2:我们的第一个“严肃”的大型语言模型。这是一个12B参数的A2.5B MoE(混合专家)大型语言模型,预训练了约11T个token,并进行了后续训练……
摘要
发布Mellum2,一个12B参数的A2.5B MoE大型语言模型,预训练了约11T个token,并使用RLVR进行了后训练。同时发布了基础版、SFT和RL检查点,以及一份技术报告。
查看缓存全文
缓存时间: 2026/06/01 15:46
今天我们发布了 Mellum2:我们的第一个“正经”大语言模型。
这是一个 12B A2.5B MoE 模型,在约 11T token 上预训练,并使用 RLVR 进行后训练。 我很自豪能领导过去六个月里致力于此的团队。
我们发布了 base/SFT/RL 检查点以及一份技术报告:https://t.co/Zj2GusGmYP
相似文章
JetBrains 的 Mellum 2(阅读时间 49 分钟)
JetBrains 发布 Mellum 2,这是一个 12B 参数的开源权重混合专家语言模型,专注于软件工程领域,在代码生成、推理和工具使用方面性能具有竞争力,基于 Apache 2.0 许可证发布。
Mellum2 技术报告
Mellum 2 是一个由 JetBrains 开发的 12B 参数开源权重的 MoE 语言模型,具有 2.5B 活跃参数,专注于软件工程任务,并针对商用 GPU 上的高效推理进行了优化。
Mellum 2 12B A2.5B
JetBrains发布了Mellum 2 12B A2.5B,这是一个专注于编码的小型MoE模型,其推理性能与Qwen 3.5 9B相当,但在其他任务上较弱。
@vllm_project: vLLM v0.21.0 发布!367 次提交,来自 202 位贡献者(其中 49 位新贡献者)。亮点:KV 卸载 + HMA、带思考预算的推测解码(适用于推理模型)……
vLLM v0.21.0 已发布,新增 KV 卸载 + HMA、面向推理模型的带思考预算的推测解码、适用于 DSR1/Kimi K2.5 的 Blackwell 上的 TOKENSPEED_MLA、Mooncake 分布式 KV、DeepSeek V4 流水线并行,以及 C++20 + Transformers v5 基线。
@vllm_project: 今天我们很高兴推出vime——一个在vLLM生态系统中用于LLM后训练的简单、稳定且高效的RL框架……
vime是一个用于LLM后训练的新开源RL框架,基于slime的训练设计和vLLM的推理引擎构建,在vLLM生态系统中提供简单、稳定且高效的流水线。