MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型！

Reddit r/LocalLLaMA 2026/06/23 03:49 工具

gguf llama-cpp minimax eagle draft-model quantization huggingface

摘要

现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换，可在兼容硬件上实现推测解码加速。

大家好！随着 llama.cpp 的一个新 PR，由 Inferact/MiniMax-M3-EAGLE3 提供的 MiniMax M3 的 EAGLE 解码器已成功转换为 GGUF 格式，运行无误！HF 仓库中包含了合并 PR 和运行模型的说明。我在一个配备 2x3090 和 128GB DDR4 的系统上测试了 UD-Q2_K_XL 量化，得益于 --fit 参数并确保草稿模型位于 VRAM 而非 RAM，速度从 2.3 tk/s 提升至 5 tk/s。可在此处找到：https://huggingface.co/tonjum/MiniMax-M3-EAGLE3-GGUF

查看原文

相似文章

EAGLE3 已登陆 llama.cpp

Reddit r/LocalLLaMA

EAGLE3 是一种推测性解码方法，现已集成到 llama.cpp 中，能够实现更快的推理。

unsloth/MiniMax-M3-GGUF

Hugging Face Models Trending

Unsloth 发布了 MiniMax-M3 多模态模型的 GGUF 量化版本，支持图像-文本到文本任务，兼容 Transformers、llama.cpp、vLLM 等推理引擎。

unsloth/North-Mini-Code-1.0-GGUF · Hugging Face

Reddit r/LocalLLaMA

此页面托管了Cohere的North-Mini-Code-1.0模型的GGUF量化版本，这是一个30B-A3B MoE模型，针对代码生成和代理任务进行了优化。提供了从特定PR构建llama.cpp以支持cohere2moe架构的说明。

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

Reddit r/LocalLLaMA

llama.cpp中新的多令牌预测（MTP）实现为Gemma 4模型带来了40%的速度提升，已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。

Unsloth MiniMax M3 GGUF

Reddit r/LocalLLaMA

Unsloth 正在将 MiniMax M3 模型的 GGUF 量化版本上传到 Hugging Face。

提交意见反馈