MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型!

Reddit r/LocalLLaMA 工具

摘要

现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换,可在兼容硬件上实现推测解码加速。

大家好!随着 llama.cpp 的一个新 PR,由 Inferact/MiniMax-M3-EAGLE3 提供的 MiniMax M3 的 EAGLE 解码器已成功转换为 GGUF 格式,运行无误!HF 仓库中包含了合并 PR 和运行模型的说明。我在一个配备 2x3090 和 128GB DDR4 的系统上测试了 UD-Q2_K_XL 量化,得益于 --fit 参数并确保草稿模型位于 VRAM 而非 RAM,速度从 2.3 tk/s 提升至 5 tk/s。可在此处找到:https://huggingface.co/tonjum/MiniMax-M3-EAGLE3-GGUF
查看原文

相似文章

EAGLE3 已登陆 llama.cpp

Reddit r/LocalLLaMA

EAGLE3 是一种推测性解码方法,现已集成到 llama.cpp 中,能够实现更快的推理。

unsloth/MiniMax-M3-GGUF

Hugging Face Models Trending

Unsloth 发布了 MiniMax-M3 多模态模型的 GGUF 量化版本,支持图像-文本到文本任务,兼容 Transformers、llama.cpp、vLLM 等推理引擎。

unsloth/North-Mini-Code-1.0-GGUF · Hugging Face

Reddit r/LocalLLaMA

此页面托管了Cohere的North-Mini-Code-1.0模型的GGUF量化版本,这是一个30B-A3B MoE模型,针对代码生成和代理任务进行了优化。提供了从特定PR构建llama.cpp以支持cohere2moe架构的说明。

Unsloth MiniMax M3 GGUF

Reddit r/LocalLLaMA

Unsloth 正在将 MiniMax M3 模型的 GGUF 量化版本上传到 Hugging Face。