MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型!
摘要
现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换,可在兼容硬件上实现推测解码加速。
大家好!随着 llama.cpp 的一个新 PR,由 Inferact/MiniMax-M3-EAGLE3 提供的 MiniMax M3 的 EAGLE 解码器已成功转换为 GGUF 格式,运行无误!HF 仓库中包含了合并 PR 和运行模型的说明。我在一个配备 2x3090 和 128GB DDR4 的系统上测试了 UD-Q2_K_XL 量化,得益于 --fit 参数并确保草稿模型位于 VRAM 而非 RAM,速度从 2.3 tk/s 提升至 5 tk/s。可在此处找到:https://huggingface.co/tonjum/MiniMax-M3-EAGLE3-GGUF
相似文章
EAGLE3 已登陆 llama.cpp
EAGLE3 是一种推测性解码方法,现已集成到 llama.cpp 中,能够实现更快的推理。
unsloth/MiniMax-M3-GGUF
Unsloth 发布了 MiniMax-M3 多模态模型的 GGUF 量化版本,支持图像-文本到文本任务,兼容 Transformers、llama.cpp、vLLM 等推理引擎。
unsloth/North-Mini-Code-1.0-GGUF · Hugging Face
此页面托管了Cohere的North-Mini-Code-1.0模型的GGUF量化版本,这是一个30B-A3B MoE模型,针对代码生成和代理任务进行了优化。提供了从特定PR构建llama.cpp以支持cohere2moe架构的说明。
LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。
Unsloth MiniMax M3 GGUF
Unsloth 正在将 MiniMax M3 模型的 GGUF 量化版本上传到 Hugging Face。