@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了！ llama.cpp 原生支持 MTP（多令牌预测）： - 无需额外 dr…

X AI KOLs Timeline 2026/05/26 07:58 工具

llama-cpp multi-token-prediction local-inference speed-up open-source qwen

摘要

llama.cpp 原生支持多令牌预测(MTP)，无需额外 draft 模型，利用模型内置预测头，使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速，让 27B 模型在消费级显卡上流畅运行。

https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了！ llama.cpp 原生支持 MTP（多令牌预测）： - 无需额外 draft 模型 - 利用模型内置预测头 - Qwen3.6-27B 轻松 1.7x+ 加速现在 27B 模型在消费级卡上也能流畅日常用了！隐私、安全、零费用全都有。操作就两行 flag： --spec-type draft-mtp --spec-draft-n-max 2 谁来测测 4090/5090 能到多少 tok/s？

查看原文

查看缓存全文

缓存时间: 2026/05/26 11:06

https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了！

llama.cpp 原生支持 MTP（多令牌预测）：

无需额外 draft 模型
利用模型内置预测头
Qwen3.6-27B 轻松 1.7x+ 加速

现在 27B 模型在消费级卡上也能流畅日常用了！隐私、安全、零费用全都有。

操作就两行 flag： –spec-type draft-mtp –spec-draft-n-max 2

谁来测测 4090/5090 能到多少 tok/s？

相似文章

@victormustar: 支持MTP的llama.cpp使本地模型足够快，可作为日常驱动 Qwen3.6-27B密集生成（在A10G上…

X AI KOLs Following

llama.cpp为Qwen3.6模型添加MTP支持，在A10G硬件上将生成速度提升78%，使本地模型可作为日常驱动使用。

@NFTCPS: 本地跑大模型的注意了！有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp，同样的显存，推理速度直接干到3倍，上下文容量扩展7.5倍，这不是PPT，是实测数据。它把三个顶级优化方案塞进一个代码库： DFlash推测解码…

X AI KOLs Timeline

BeeLlama.cpp is a fork of llama.cpp that integrates DFlash speculative decoding, TurboQuant/TCQ KV-cache compression, and adaptive draft control, achieving up to 3x faster inference and 7.5x context expansion on the same hardware.

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

X AI KOLs Timeline

AirLLM 是一个完全开源的工具，通过分层推理技术（逐层加载并立即释放显存），使得 70B 大语言模型可在仅 4GB 显存的 GPU 上运行，无需量化、蒸馏或剪枝，并已支持 Llama3.1 405B 在 8GB 显存上运行。

@julien_c: 我注意到网上有些困惑，关于如何以最简单的方式运行带MTP（多令牌预测）的llama.cpp……

X AI KOLs Following

Julien C 解释了如何运行带有MTP（多令牌预测）的llama.cpp，以实现约2倍的生成速度，可以使用Dense 27B或MoE 35B模型，并提供了安装和配置说明。

Llama.cpp B9406 MTP mmproj 修复

Reddit r/LocalLLaMA

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型（例如 Qwen3.6-35B-A3B）时出现的崩溃问题 (GGML_ASSERT)。

相似文章

@victormustar: 支持MTP的llama.cpp使本地模型足够快，可作为日常驱动 Qwen3.6-27B密集生成（在A10G上…

@NFTCPS: 本地跑大模型的注意了！ 有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp，同样的显存，推理速度直接干到3倍，上下文容量扩展7.5倍，这不是PPT，是实测数据。 它把三个顶级优化方案塞进一个代码库： DFlash推测解码…

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。 最骚的是：100%开源，白嫖警告 https://github.com/0xSo…

@julien_c: 我注意到网上有些困惑，关于如何以最简单的方式运行带MTP（多令牌预测）的llama.cpp……

Llama.cpp B9406 MTP mmproj 修复

提交意见反馈

@NFTCPS: 本地跑大模型的注意了！有人把llama.cpp改造成了性能怪兽——BeeLlama.cpp，同样的显存，推理速度直接干到3倍，上下文容量扩展7.5倍，这不是PPT，是实测数据。它把三个顶级优化方案塞进一个代码库： DFlash推测解码…

@NFTCPS: 4GB显存跑70B大模型？这事儿真成了！ AirLLM玩了个骚操作——分层推理，不一次性把模型怼进显存，而是一层层加载、算完就扔，硬生生把巨无霸塞进小破卡。最骚的是：100%开源，白嫖警告 https://github.com/0xSo…