B9109:mtp 与 mmproj 的提前修复即将到来?看来确实如此

Reddit r/LocalLLaMA 工具

摘要

即将发布的更新将通过在草稿上下文中启用图像处理,解决多模态投影与多 Token 预测之间的崩溃问题。此次改动还引入了并行草稿支持,以提升投机解码的可扩展性。

摘要:spec:通过草稿上下文处理图像——这直接解决了 mmproj + MTP 的崩溃问题。此前,图像(mmproj)完全无法通过投机/草稿上下文进行处理。此提交添加了该功能。这正是正在进行的实际修复。server:修复 mtmd 草稿处理——mtmd 是多模态(mmproj)处理器。明确修复多模态的草稿处理,意味着开发团队已知晓该崩溃问题并正在针对性解决。spec:支持并行草稿——这是同时运行多个草稿模型的基础设施,MTP 要在并行 slot 上大规模正常运行必须具备此条件。这三项改动集中在同一个构建版本中——多模态草稿修复、并行草稿支持以及通过草稿上下文处理图像——表明这是一次针对性的推进,旨在让 MTP 与 mmproj 协同工作。PR #22673 可能很快就会跟进。
查看原文

相似文章

Llama.cpp B9406 MTP mmproj 修复

Reddit r/LocalLLaMA

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。

b9180 llama.cpp MTP 已落地

Reddit r/LocalLLaMA

llama.cpp 版本 b9180 已发布,支持多令牌预测 (MTP)。此次发布标志着构建成功,开发者们如释重负。