MiMo-V2.5-coder

Reddit r/LocalLLaMA 模型

摘要

小米 MiMo-V2.5 模型的量化 GGUF 构建版本,专为在 128GB Apple Silicon 系统上进行编码和工具调用而优化,优先确保工具调用的可靠性和代码生成。

大家好,我刚刚发布了 MiMo-V2.5-coder。如果你有 128GB 内存,这会是 Qwen3.6 和 DS4 的绝佳替代品,尤其在编码方面。速度快,工具调用可靠。试试看!
查看原文
查看缓存全文

缓存时间: 2026/05/25 10:17

jedisct1/MiMo-V2.5-coder-Q2 · Hugging Face

来源:https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#mimo-v25-coder-q2-ggufMiMo-V2.5 Coder Q2 GGUF

这是一个本地自量化的 GGUF 构建,基于 XiaomiMiMo/MiMo-V2.5(https://huggingface.co/XiaomiMiMo/MiMo-V2.5),针对编码和工具调用在 128 GB Apple Silicon M5 机器上进行了调优。

此量化针对 128 GB 内存的系统进行了优化。默认服务配置文件面向 128 GB Apple Silicon 机器,并尝试在 100,000 token 的上下文下保持模型的实用性。内存较小的系统可能需要更激进的 CPU 卸载、更小的上下文或不同的量化。

这是一个纯文本量化。原始 MiMo-V2.5 检查点支持多模态,但此 GGUF 不包含视觉或音频编码器。转换时也省略了 MiMo 的多 token 预测模块,因为正常的 llama.cpp 生成目前不针对该模型执行这些模块。

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#quantization量化

高级摘要:

  • 量化类型:Q2\_K\_S
  • 重要性矩阵:针对编码和工具调用
  • 保留了嵌入、输出、注意力和密集第一 FFN 的更高精度
  • MoE 下专家张量:Q3\_K
  • 报告的量化大小:约 108,496.76 MiB,2.95 BPW

包含一个 tokenizer 元数据修复,以便 llama.cpp 在加载时不会警告基础词汇的 </s\> token。MiMo 的实际 EOS token 保持为 <|im_end|>

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#imatrixImatrix

此构建有意优先考虑:

  • 可靠的 OpenAI 兼容工具调用
  • 编码和面向 shell 的 agent 使用
  • 英文提示和代码库工作
  • 在 128 GB Apple Silicon 系统上的实际推理

中文质量和多模态使用不是优化目标。

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#serving服务

llama-server \ -hf jedisct1/MiMo-V2.5-coder-Q2 \ --host 127.0.0.1 \ --port 8080 \ --ctx-size 100000 \ --parallel 1 \ --batch-size 512 \ --ubatch-size 128 \ --threads 12 \ --threads-batch 18 \ --prio 0 \ --poll 80 \ --flash-attn on \ --jinja \ --fit on \ --fit-target 4096 \ --fit-ctx 100000 \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off

此命令在 127.0.0.1:8080 上启动一个兼容 OpenAI 的服务器。仓库包含一个 GGUF 分片集,因此较新的 llama.cpp 构建应自动选择第一个分片。

如果您已克隆或本地下载了仓库,也可以使用包含的帮助脚本:

./run-server.sh

脚本使用相同的默认值,并从仓库目录加载第一个 GGUF 分片。

默认服务设置:

MIMO_CTX=100000 MIMO_FIT_CTX=100000 MIMO_FIT_TARGET=4096 MIMO_BATCH=512 MIMO_UBATCH=128 MIMO_REASONING=off MIMO_CPU_MOE=0

这些默认值针对配备 128 GB 统一内存的 Apple M5 Max 进行了调优。它们禁用推理输出,使用模型的 Jinja 聊天模板,启用 Flash Attention,并要求 llama.cpp 尽可能多地将模型放入 Metal。

如果遇到内存压力,请使用更安全的 CPU-MoE 模式:

MIMO_CPU_MOE=1 MIMO_FIT_TARGET=32768 MIMO_BATCH=128 MIMO_UBATCH=64 ./run-server.sh

该模式速度较慢,尤其是在长提示预填充时,但能为 Metal 留下更多内存空间。

您可以通过以下命令直接指向不同的 llama-server 二进制文件:

LLAMA_SERVER=/path/to/llama-server ./run-server.sh

您也可以在不使用帮助脚本的情况下直接对本地文件运行 llama-server

llama-server \ --model MiMo-V2.5-coder-Q2-00001-of-00016.gguf \ --host 127.0.0.1 \ --port 8080 \ --ctx-size 100000 \ --parallel 1 \ --batch-size 512 \ --ubatch-size 128 \ --threads 12 \ --threads-batch 18 \ --prio 0 \ --poll 80 \ --flash-attn on \ --jinja \ --fit on \ --fit-target 4096 \ --fit-ctx 100000 \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off

对于更安全的 CPU-MoE 回退方案,添加 --cpu-moe 并使用更大的适配余量:

llama-server \ --model MiMo-V2.5-coder-Q2-00001-of-00016.gguf \ --ctx-size 100000 \ --fit on \ --fit-target 32768 \ --fit-ctx 100000 \ --batch-size 128 \ --ubatch-size 64 \ --flash-attn on \ --jinja \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off \ --cpu-moe

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#tool-calling-notes工具调用说明

为获得最佳工具调用效果:

  • 使用 Swival(https://swival.dev/)工具集 - 它应该与任何使用类似 OpenAI 工具调用约定的框架兼容,但此处已与 Swival 进行过测试。
  • 通过 --reasoning offMIMO_REASONING=off 禁用模型推理输出。
  • 如果客户端支持,将 parallel_tool_calls 设置为 false
  • 避免强制使用 tool_choice: required;测试表明这更可能导致格式错误的调用。

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#license许可证

上游模型卡片 XiaomiMiMo/MiMo-V2.5 声明使用 MIT 许可证。此衍生 GGUF 在相同的许可证元数据下提供。

相似文章

XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

Hugging Face Models Trending

XiaomiMiMo 发布 MiMo-V2.5-Pro-FP4-DFlash,这是一款 FP4 量化的 MoE 模型,采用块扩散推测解码,以减少万亿参数推理的内存和带宽。

XiaomiMiMo/MiMo-V2.5-Pro

Hugging Face Models Trending

小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。

Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

Hugging Face Models Trending

SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本,专为 Apple Silicon 优化,在代码、推理和工具使用任务上性能提升,同时保持比原版基线更快的推理速度。

@port_dev: https://x.com/port_dev/status/2054259445732110408

X AI KOLs Timeline

本文提供了一份详细教程,介绍如何通过 Unsloth Studio 和 Pi 编码框架配置基于 Qwen3.6-27B 的本地编码智能体。文章强调了使用 GGUF 量化模型在消费级硬件(如搭载 Apple Silicon 芯片的 Mac 电脑)上实现高效推理的优势。