B9109:mtp 与 mmproj 的提前修复即将到来?看来确实如此
摘要
即将发布的更新将通过在草稿上下文中启用图像处理,解决多模态投影与多 Token 预测之间的崩溃问题。此次改动还引入了并行草稿支持,以提升投机解码的可扩展性。
摘要:spec:通过草稿上下文处理图像——这直接解决了 mmproj + MTP 的崩溃问题。此前,图像(mmproj)完全无法通过投机/草稿上下文进行处理。此提交添加了该功能。这正是正在进行的实际修复。server:修复 mtmd 草稿处理——mtmd 是多模态(mmproj)处理器。明确修复多模态的草稿处理,意味着开发团队已知晓该崩溃问题并正在针对性解决。spec:支持并行草稿——这是同时运行多个草稿模型的基础设施,MTP 要在并行 slot 上大规模正常运行必须具备此条件。这三项改动集中在同一个构建版本中——多模态草稿修复、并行草稿支持以及通过草稿上下文处理图像——表明这是一次针对性的推进,旨在让 MTP 与 mmproj 协同工作。PR #22673 可能很快就会跟进。
相似文章
@ivanfioravanti: llamacpp 即将支持 MTP!
llamacpp 即将支持多令牌预测(MTP),提升推理效率。
MLX 上新的 Gemma 4 MTP?
Google 发布了用于 Gemma 4 的多 token 预测草稿器,通过推测性解码加速推理,但目前对 MLX 的支持尚未确认或不可用。
MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp
一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。
MTP 关键在于接受率
一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP(多令牌预测)基准测试,发现它在代码生成方面表现出色(速度快 1.53 倍,接受率 66%),但对 JSON 输出不利(速度慢 50%,接受率仅 8%),对长篇散文则影响中性,表明当令牌接受率低于 50% 时,MTP 的优势便荡然无存。
@jundotkim: oMLX 0.3.9.dev2 已发布。亮点包括:- 视觉路径上的 Gemma 4 MTP(感谢 @Prince_Canuma 的 mlx-vlm)。图像+文本的解码速度显著提升 -...
oMLX 0.3.9.dev2 已发布,带来了对 Gemma 4 的改进支持、DFlash 引擎集成以及 ParoQuant 功能,优化了在 Apple Silicon 上的本地 LLM 推理体验。