B9109:mtp 与 mmproj 的提前修复即将到来?看来确实如此
摘要
即将发布的更新将通过在草稿上下文中启用图像处理,解决多模态投影与多 Token 预测之间的崩溃问题。此次改动还引入了并行草稿支持,以提升投机解码的可扩展性。
摘要:spec:通过草稿上下文处理图像——这直接解决了 mmproj + MTP 的崩溃问题。此前,图像(mmproj)完全无法通过投机/草稿上下文进行处理。此提交添加了该功能。这正是正在进行的实际修复。server:修复 mtmd 草稿处理——mtmd 是多模态(mmproj)处理器。明确修复多模态的草稿处理,意味着开发团队已知晓该崩溃问题并正在针对性解决。spec:支持并行草稿——这是同时运行多个草稿模型的基础设施,MTP 要在并行 slot 上大规模正常运行必须具备此条件。这三项改动集中在同一个构建版本中——多模态草稿修复、并行草稿支持以及通过草稿上下文处理图像——表明这是一次针对性的推进,旨在让 MTP 与 mmproj 协同工作。PR #22673 可能很快就会跟进。
相似文章
b9200 发布 - 潜在 MTP 提示处理速度提升
llama.cpp 版本 b9200 通过避免不必要的 logits 复制,减少了内存流量,从而提升了多令牌预测(MTP)的提示处理速度。
Llama.cpp B9406 MTP mmproj 修复
Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。
b9180 llama.cpp MTP 已落地
llama.cpp 版本 b9180 已发布,支持多令牌预测 (MTP)。此次发布标志着构建成功,开发者们如释重负。
@ivanfioravanti: llamacpp 即将支持 MTP!
llamacpp 即将支持多令牌预测(MTP),提升推理效率。
LM Studio 终于支持 MTP 推测解码
LM Studio 在最新的 Beta 更新中增加了对 MTP 推测解码的支持,提升了本地大语言模型的推理速度。