标签
llama.cpp 原生支持多令牌预测(MTP),无需额外 draft 模型,利用模型内置预测头,使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速,让 27B 模型在消费级显卡上流畅运行。
一条推文推荐Nvidia RTX 4090使用--ddtree-budget 36,声称在Qwen3.6_27B解码时实现2.5倍加速。