Mellum 2 12B A2.5B

Reddit r/LocalLLaMA 模型

摘要

JetBrains发布了Mellum 2 12B A2.5B,这是一个专注于编码的小型MoE模型,其推理性能与Qwen 3.5 9B相当,但在其他任务上较弱。

JetBrains推出的专注于编码的小型MoE模型。他们声称推理模型的编码性能与Qwen 3.5 9B相当,但在所有其他方面都不如Qwen 3.5 4B。模型:[https://huggingface.co/collections/JetBrains/mellum-2](https://huggingface.co/collections/JetBrains/mellum-2) 技术报告:[https://arxiv.org/abs/2605.31268](https://arxiv.org/abs/2605.31268)
查看原文

相似文章

Mellum2 技术报告

Hugging Face Daily Papers

Mellum 2 是一个由 JetBrains 开发的 12B 参数开源权重的 MoE 语言模型,具有 2.5B 活跃参数,专注于软件工程任务,并针对商用 GPU 上的高效推理进行了优化。

JetBrains 的 Mellum 2(阅读时间 49 分钟)

TLDR AI

JetBrains 发布 Mellum 2,这是一个 12B 参数的开源权重混合专家语言模型,专注于软件工程领域,在代码生成、推理和工具使用方面性能具有竞争力,基于 Apache 2.0 许可证发布。

JetBrains/Mellum2-12B-A2.5B-Thinking

Hugging Face Models Trending

JetBrains releases Mellum2-12B-A2.5B-Thinking, an open-source Mixture-of-Experts reasoning model with 131k context length, trained with RLVR for explicit chain-of-thought reasoning.