B9109：mtp 与 mmproj 的提前修复即将到来？看来确实如此

Reddit r/LocalLLaMA 2026/05/11 22:20 工具

speculative-decoding multimodal inference open-source bug-fix development

摘要

即将发布的更新将通过在草稿上下文中启用图像处理，解决多模态投影与多 Token 预测之间的崩溃问题。此次改动还引入了并行草稿支持，以提升投机解码的可扩展性。

摘要：spec：通过草稿上下文处理图像——这直接解决了 mmproj + MTP 的崩溃问题。此前，图像（mmproj）完全无法通过投机/草稿上下文进行处理。此提交添加了该功能。这正是正在进行的实际修复。server：修复 mtmd 草稿处理——mtmd 是多模态（mmproj）处理器。明确修复多模态的草稿处理，意味着开发团队已知晓该崩溃问题并正在针对性解决。spec：支持并行草稿——这是同时运行多个草稿模型的基础设施，MTP 要在并行 slot 上大规模正常运行必须具备此条件。这三项改动集中在同一个构建版本中——多模态草稿修复、并行草稿支持以及通过草稿上下文处理图像——表明这是一次针对性的推进，旨在让 MTP 与 mmproj 协同工作。PR #22673 可能很快就会跟进。

查看原文

B9109：mtp 与 mmproj 的提前修复即将到来？看来确实如此

相似文章

@ivanfioravanti: llamacpp 即将支持 MTP！

MLX 上新的 Gemma 4 MTP？

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

MTP 关键在于接受率

@jundotkim: oMLX 0.3.9.dev2 已发布。亮点包括：- 视觉路径上的 Gemma 4 MTP（感谢 @Prince_Canuma 的 mlx-vlm）。图像+文本的解码速度显著提升 -...

提交意见反馈