MiMo-V2.5-coder

Reddit r/LocalLLaMA 2026/05/25 08:39 模型

quantization coding tool-calling gguf apple-silicon llama.cpp open-source

摘要

小米 MiMo-V2.5 模型的量化 GGUF 构建版本，专为在 128GB Apple Silicon 系统上进行编码和工具调用而优化，优先确保工具调用的可靠性和代码生成。

大家好，我刚刚发布了 MiMo-V2.5-coder。如果你有 128GB 内存，这会是 Qwen3.6 和 DS4 的绝佳替代品，尤其在编码方面。速度快，工具调用可靠。试试看！

查看原文

查看缓存全文

缓存时间: 2026/05/25 10:17

jedisct1/MiMo-V2.5-coder-Q2 · Hugging Face

来源：https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#mimo-v25-coder-q2-ggufMiMo-V2.5 Coder Q2 GGUF

这是一个本地自量化的 GGUF 构建，基于 XiaomiMiMo/MiMo-V2.5（https://huggingface.co/XiaomiMiMo/MiMo-V2.5），针对编码和工具调用在 128 GB Apple Silicon M5 机器上进行了调优。

此量化针对 128 GB 内存的系统进行了优化。默认服务配置文件面向 128 GB Apple Silicon 机器，并尝试在 100,000 token 的上下文下保持模型的实用性。内存较小的系统可能需要更激进的 CPU 卸载、更小的上下文或不同的量化。

这是一个纯文本量化。原始 MiMo-V2.5 检查点支持多模态，但此 GGUF 不包含视觉或音频编码器。转换时也省略了 MiMo 的多 token 预测模块，因为正常的 llama.cpp 生成目前不针对该模型执行这些模块。

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#quantization量化

高级摘要：

量化类型：Q2\_K\_S
重要性矩阵：针对编码和工具调用
保留了嵌入、输出、注意力和密集第一 FFN 的更高精度
MoE 下专家张量：Q3\_K
报告的量化大小：约 108,496.76 MiB，2.95 BPW

包含一个 tokenizer 元数据修复，以便 llama.cpp 在加载时不会警告基础词汇的 </s\> token。MiMo 的实际 EOS token 保持为 <|im_end|>。

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#imatrixImatrix

此构建有意优先考虑：

可靠的 OpenAI 兼容工具调用
编码和面向 shell 的 agent 使用
英文提示和代码库工作
在 128 GB Apple Silicon 系统上的实际推理

中文质量和多模态使用不是优化目标。

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#serving服务

llama-server \ -hf jedisct1/MiMo-V2.5-coder-Q2 \ --host 127.0.0.1 \ --port 8080 \ --ctx-size 100000 \ --parallel 1 \ --batch-size 512 \ --ubatch-size 128 \ --threads 12 \ --threads-batch 18 \ --prio 0 \ --poll 80 \ --flash-attn on \ --jinja \ --fit on \ --fit-target 4096 \ --fit-ctx 100000 \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off

此命令在 127.0.0.1:8080 上启动一个兼容 OpenAI 的服务器。仓库包含一个 GGUF 分片集，因此较新的 llama.cpp 构建应自动选择第一个分片。

如果您已克隆或本地下载了仓库，也可以使用包含的帮助脚本：

./run-server.sh

脚本使用相同的默认值，并从仓库目录加载第一个 GGUF 分片。

默认服务设置：

MIMO_CTX=100000 MIMO_FIT_CTX=100000 MIMO_FIT_TARGET=4096 MIMO_BATCH=512 MIMO_UBATCH=128 MIMO_REASONING=off MIMO_CPU_MOE=0

这些默认值针对配备 128 GB 统一内存的 Apple M5 Max 进行了调优。它们禁用推理输出，使用模型的 Jinja 聊天模板，启用 Flash Attention，并要求 llama.cpp 尽可能多地将模型放入 Metal。

如果遇到内存压力，请使用更安全的 CPU-MoE 模式：

MIMO_CPU_MOE=1 MIMO_FIT_TARGET=32768 MIMO_BATCH=128 MIMO_UBATCH=64 ./run-server.sh

该模式速度较慢，尤其是在长提示预填充时，但能为 Metal 留下更多内存空间。

您可以通过以下命令直接指向不同的 llama-server 二进制文件：

LLAMA_SERVER=/path/to/llama-server ./run-server.sh

您也可以在不使用帮助脚本的情况下直接对本地文件运行 llama-server：

llama-server \ --model MiMo-V2.5-coder-Q2-00001-of-00016.gguf \ --host 127.0.0.1 \ --port 8080 \ --ctx-size 100000 \ --parallel 1 \ --batch-size 512 \ --ubatch-size 128 \ --threads 12 \ --threads-batch 18 \ --prio 0 \ --poll 80 \ --flash-attn on \ --jinja \ --fit on \ --fit-target 4096 \ --fit-ctx 100000 \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off

对于更安全的 CPU-MoE 回退方案，添加 --cpu-moe 并使用更大的适配余量：

llama-server \ --model MiMo-V2.5-coder-Q2-00001-of-00016.gguf \ --ctx-size 100000 \ --fit on \ --fit-target 32768 \ --fit-ctx 100000 \ --batch-size 128 \ --ubatch-size 64 \ --flash-attn on \ --jinja \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off \ --cpu-moe

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#tool-calling-notes工具调用说明

为获得最佳工具调用效果：

使用 Swival（https://swival.dev/）工具集 - 它应该与任何使用类似 OpenAI 工具调用约定的框架兼容，但此处已与 Swival 进行过测试。
通过 --reasoning off 或 MIMO_REASONING=off 禁用模型推理输出。
如果客户端支持，将 parallel_tool_calls 设置为 false。
避免强制使用 tool_choice: required；测试表明这更可能导致格式错误的调用。

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#license许可证

上游模型卡片 XiaomiMiMo/MiMo-V2.5 声明使用 MIT 许可证。此衍生 GGUF 在相同的许可证元数据下提供。

MiMo-V2.5-coder

jedisct1/MiMo-V2.5-coder-Q2 · Hugging Face

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#mimo-v25-coder-q2-ggufMiMo-V2.5 Coder Q2 GGUF

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#quantization量化

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#imatrixImatrix

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#serving服务

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#tool-calling-notes工具调用说明

https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#license许可证

相似文章

XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

我测试了小米 MiMo V2.5 Pro 在自主编程方面的表现：完成了 301 次提交，生成了 60 多页代码，API 费用仅 70 美元。如今它已开源。

XiaomiMiMo/MiMo-V2.5-Pro

Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

@port_dev: https://x.com/port_dev/status/2054259445732110408

提交意见反馈