MiMo-V2.5-coder
摘要
小米 MiMo-V2.5 模型的量化 GGUF 构建版本,专为在 128GB Apple Silicon 系统上进行编码和工具调用而优化,优先确保工具调用的可靠性和代码生成。
查看缓存全文
缓存时间: 2026/05/25 10:17
jedisct1/MiMo-V2.5-coder-Q2 · Hugging Face
来源:https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2
https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#mimo-v25-coder-q2-ggufMiMo-V2.5 Coder Q2 GGUF
这是一个本地自量化的 GGUF 构建,基于 XiaomiMiMo/MiMo-V2.5(https://huggingface.co/XiaomiMiMo/MiMo-V2.5),针对编码和工具调用在 128 GB Apple Silicon M5 机器上进行了调优。
此量化针对 128 GB 内存的系统进行了优化。默认服务配置文件面向 128 GB Apple Silicon 机器,并尝试在 100,000 token 的上下文下保持模型的实用性。内存较小的系统可能需要更激进的 CPU 卸载、更小的上下文或不同的量化。
这是一个纯文本量化。原始 MiMo-V2.5 检查点支持多模态,但此 GGUF 不包含视觉或音频编码器。转换时也省略了 MiMo 的多 token 预测模块,因为正常的 llama.cpp 生成目前不针对该模型执行这些模块。
https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#quantization量化
高级摘要:
- 量化类型:
Q2\_K\_S - 重要性矩阵:针对编码和工具调用
- 保留了嵌入、输出、注意力和密集第一 FFN 的更高精度
- MoE 下专家张量:
Q3\_K - 报告的量化大小:约 108,496.76 MiB,2.95 BPW
包含一个 tokenizer 元数据修复,以便 llama.cpp 在加载时不会警告基础词汇的 </s\> token。MiMo 的实际 EOS token 保持为 <|im_end|>。
https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#imatrixImatrix
此构建有意优先考虑:
- 可靠的 OpenAI 兼容工具调用
- 编码和面向 shell 的 agent 使用
- 英文提示和代码库工作
- 在 128 GB Apple Silicon 系统上的实际推理
中文质量和多模态使用不是优化目标。
https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#serving服务
llama-server \ -hf jedisct1/MiMo-V2.5-coder-Q2 \ --host 127.0.0.1 \ --port 8080 \ --ctx-size 100000 \ --parallel 1 \ --batch-size 512 \ --ubatch-size 128 \ --threads 12 \ --threads-batch 18 \ --prio 0 \ --poll 80 \ --flash-attn on \ --jinja \ --fit on \ --fit-target 4096 \ --fit-ctx 100000 \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off
此命令在 127.0.0.1:8080 上启动一个兼容 OpenAI 的服务器。仓库包含一个 GGUF 分片集,因此较新的 llama.cpp 构建应自动选择第一个分片。
如果您已克隆或本地下载了仓库,也可以使用包含的帮助脚本:
./run-server.sh
脚本使用相同的默认值,并从仓库目录加载第一个 GGUF 分片。
默认服务设置:
MIMO_CTX=100000 MIMO_FIT_CTX=100000 MIMO_FIT_TARGET=4096 MIMO_BATCH=512 MIMO_UBATCH=128 MIMO_REASONING=off MIMO_CPU_MOE=0
这些默认值针对配备 128 GB 统一内存的 Apple M5 Max 进行了调优。它们禁用推理输出,使用模型的 Jinja 聊天模板,启用 Flash Attention,并要求 llama.cpp 尽可能多地将模型放入 Metal。
如果遇到内存压力,请使用更安全的 CPU-MoE 模式:
MIMO_CPU_MOE=1 MIMO_FIT_TARGET=32768 MIMO_BATCH=128 MIMO_UBATCH=64 ./run-server.sh
该模式速度较慢,尤其是在长提示预填充时,但能为 Metal 留下更多内存空间。
您可以通过以下命令直接指向不同的 llama-server 二进制文件:
LLAMA_SERVER=/path/to/llama-server ./run-server.sh
您也可以在不使用帮助脚本的情况下直接对本地文件运行 llama-server:
llama-server \ --model MiMo-V2.5-coder-Q2-00001-of-00016.gguf \ --host 127.0.0.1 \ --port 8080 \ --ctx-size 100000 \ --parallel 1 \ --batch-size 512 \ --ubatch-size 128 \ --threads 12 \ --threads-batch 18 \ --prio 0 \ --poll 80 \ --flash-attn on \ --jinja \ --fit on \ --fit-target 4096 \ --fit-ctx 100000 \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off
对于更安全的 CPU-MoE 回退方案,添加 --cpu-moe 并使用更大的适配余量:
llama-server \ --model MiMo-V2.5-coder-Q2-00001-of-00016.gguf \ --ctx-size 100000 \ --fit on \ --fit-target 32768 \ --fit-ctx 100000 \ --batch-size 128 \ --ubatch-size 64 \ --flash-attn on \ --jinja \ --gpu-layers auto \ --cache-type-k f16 \ --cache-type-v f16 \ --reasoning off \ --cpu-moe
https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#tool-calling-notes工具调用说明
为获得最佳工具调用效果:
- 使用 Swival(https://swival.dev/)工具集 - 它应该与任何使用类似 OpenAI 工具调用约定的框架兼容,但此处已与 Swival 进行过测试。
- 通过
--reasoning off或MIMO_REASONING=off禁用模型推理输出。 - 如果客户端支持,将
parallel_tool_calls设置为false。 - 避免强制使用
tool_choice: required;测试表明这更可能导致格式错误的调用。
https://huggingface.co/jedisct1/MiMo-V2.5-coder-Q2#license许可证
上游模型卡片 XiaomiMiMo/MiMo-V2.5 声明使用 MIT 许可证。此衍生 GGUF 在相同的许可证元数据下提供。
相似文章
XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
XiaomiMiMo 发布 MiMo-V2.5-Pro-FP4-DFlash,这是一款 FP4 量化的 MoE 模型,采用块扩散推测解码,以减少万亿参数推理的内存和带宽。
我测试了小米 MiMo V2.5 Pro 在自主编程方面的表现:完成了 301 次提交,生成了 60 多页代码,API 费用仅 70 美元。如今它已开源。
小米已开源其 MiMo V2.5 Pro 模型,这是一个拥有 1020 亿参数、专为自主编码任务设计的混合专家(MoE)模型。本文详细介绍了一项现实世界中的测试,结果表明该模型凭借高缓存命中率实现了高效运行且 API 调用成本极低。
XiaomiMiMo/MiMo-V2.5-Pro
小米发布了 MiMo-V2.5-Pro,这是一个开源的 MoE 语言模型,拥有 1.02T 总参数和 1M token 上下文长度,专为复杂的智能体(Agent)和软件工程任务进行了优化。
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本,专为 Apple Silicon 优化,在代码、推理和工具使用任务上性能提升,同时保持比原版基线更快的推理速度。
@port_dev: https://x.com/port_dev/status/2054259445732110408
本文提供了一份详细教程,介绍如何通过 Unsloth Studio 和 Pi 编码框架配置基于 Qwen3.6-27B 的本地编码智能体。文章强调了使用 GGUF 量化模型在消费级硬件(如搭载 Apple Silicon 芯片的 Mac 电脑)上实现高效推理的优势。