Mellum 2 12B A2.5B
摘要
JetBrains发布了Mellum 2 12B A2.5B,这是一个专注于编码的小型MoE模型,其推理性能与Qwen 3.5 9B相当,但在其他任务上较弱。
JetBrains推出的专注于编码的小型MoE模型。他们声称推理模型的编码性能与Qwen 3.5 9B相当,但在所有其他方面都不如Qwen 3.5 4B。模型:[https://huggingface.co/collections/JetBrains/mellum-2](https://huggingface.co/collections/JetBrains/mellum-2) 技术报告:[https://arxiv.org/abs/2605.31268](https://arxiv.org/abs/2605.31268)
相似文章
Mellum2 技术报告
Mellum 2 是一个由 JetBrains 开发的 12B 参数开源权重的 MoE 语言模型,具有 2.5B 活跃参数,专注于软件工程任务,并针对商用 GPU 上的高效推理进行了优化。
JetBrains 的 Mellum 2(阅读时间 49 分钟)
JetBrains 发布 Mellum 2,这是一个 12B 参数的开源权重混合专家语言模型,专注于软件工程领域,在代码生成、推理和工具使用方面性能具有竞争力,基于 Apache 2.0 许可证发布。
JetBrains/Mellum2-12B-A2.5B-Thinking
JetBrains releases Mellum2-12B-A2.5B-Thinking, an open-source Mixture-of-Experts reasoning model with 131k context length, trained with RLVR for explicit chain-of-thought reasoning.
JetBrains 推出 Mellum2:一款面向代码生成与推理任务的 12B 参数混合专家模型
JetBrains 推出 Mellum2,这是一款基于 12B 参数的混合专家模型,专为代码生成和推理任务优化,重点支持私有部署并集成到开发工作流中。
Mellum2 开源:一款适用于 AI 工作流的快速模型 | JetBrains AI 博客
JetBrains 将 Mellum2 开源,这是一个快速的 12B 混合专家模型,专为软件工程中的低延迟 AI 工作流设计,遵循 Apache 2.0 许可证。