标签
现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换,可在兼容硬件上实现推测解码加速。
EAGLE 3.1通过后归一化架构提升了推测解码的鲁棒性,在长上下文工作负载中实现了长达2倍的接受长度,并获得了TorchSpec的训练支持及集成到vLLM中。
讨论了推测解码的多种风格,并尝试为社区制作一个Qwen-3.6-27b EAGLE-3草稿模型。