@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了! llama.cpp 原生支持 MTP(多令牌预测): - 无需额外 dr…
摘要
llama.cpp 原生支持多令牌预测(MTP),无需额外 draft 模型,利用模型内置预测头,使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速,让 27B 模型在消费级显卡上流畅运行。
查看缓存全文
缓存时间: 2026/05/26 11:06
https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了!
llama.cpp 原生支持 MTP(多令牌预测):
- 无需额外 draft 模型
- 利用模型内置预测头
- Qwen3.6-27B 轻松 1.7x+ 加速
现在 27B 模型在消费级卡上也能流畅日常用了! 隐私、安全、零费用全都有。
操作就两行 flag: –spec-type draft-mtp –spec-draft-n-max 2
谁来测测 4090/5090 能到多少 tok/s?
相似文章
@victormustar: 支持MTP的llama.cpp使本地模型足够快,可作为日常驱动 Qwen3.6-27B密集生成(在A10G上…
llama.cpp为Qwen3.6模型添加MTP支持,在A10G硬件上将生成速度提升78%,使本地模型可作为日常驱动使用。
@NFTCPS: 本地跑大模型的注意了! 有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp,同样的显存,推理速度直接干到3倍,上下文容量扩展7.5倍,这不是PPT,是实测数据。 它把三个顶级优化方案塞进一个代码库: DFlash推测解码…
BeeLlama.cpp is a fork of llama.cpp that integrates DFlash speculative decoding, TurboQuant/TCQ KV-cache compression, and adaptive draft control, achieving up to 3x faster inference and 7.5x context expansion on the same hardware.
@NFTCPS: 4GB显存跑70B大模型?这事儿真成了! AirLLM玩了个骚操作——分层推理,不一次性把模型怼进显存,而是一层层加载、算完就扔,硬生生把巨无霸塞进小破卡。 最骚的是:100%开源,白嫖警告 https://github.com/0xSo…
AirLLM 是一个完全开源的工具,通过分层推理技术(逐层加载并立即释放显存),使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行,无需量化、蒸馏或剪枝,并已支持 Llama3.1 405B 在 8GB 显存上运行。
@julien_c: 我注意到网上有些困惑,关于如何以最简单的方式运行带MTP(多令牌预测)的llama.cpp……
Julien C 解释了如何运行带有MTP(多令牌预测)的llama.cpp,以实现约2倍的生成速度,可以使用Dense 27B或MoE 35B模型,并提供了安装和配置说明。
Llama.cpp B9406 MTP mmproj 修复
Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。