这是个好消息...
摘要
多令牌预测(MTP)已获批准集成到llama.cpp中,表明本地LLM推理工具即将更新。
看来终于实现了... MTP获准加入llama.cpp。是时候为更新做准备了。
相似文章
@ivanfioravanti: llamacpp 即将支持 MTP!
llamacpp 即将支持多令牌预测(MTP),提升推理效率。
llama + spec: 由 am17an 提交的 MTP 支持 · Pull Request #22673 · ggml-org/llama.cpp
拉取请求为 llama.cpp 添加多令牌预测(MTP)支持,启用推测解码以加速推理。
MTP 支持已合并至 llama.cpp
为 llama.cpp 添加 MTP(多令牌预测)支持的拉取请求已合并至 master 分支。
@ggerganov: llama.cpp 为 Qwen3.6 系列添加 MTP 支持,这是本地AI生态系统的一个重要里程碑。性能提…
llama.cpp 为 Qwen3.6 系列添加了多令牌预测(MTP)支持,为在普通硬件上进行本地AI推理带来了巨大的性能提升。
LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。