LM Studio 终于支持 MTP 推测解码
摘要
LM Studio 在最新的 Beta 更新中增加了对 MTP 推测解码的支持,提升了本地大语言模型的推理速度。
https://preview.redd.it/1uuzjm0ll72h1.png?width=923&format=png&auto=webp&s=1af7d7594be1e08ff7ad6797e2bc53e9410769a3 更新到 0.4.14 Build 2 (Beta),并确保你的 llama.cpp 引擎版本为 2.15.0。https://preview.redd.it/x0vdwjb3n72h1.png?width=742&format=png&auto=webp&s=6367de44208004d2f50194d78a542c46b040dceb 你还需要选择“手动选择模型加载参数”,并在加载模型前启用 MTP,它默认不是开启的。
相似文章
@lmstudio: MTP 已在 LM Studio 0.4.14 中可用。请打开声音。
LM Studio 0.4.14 引入了 MTP(多轮提示)支持,增强了其本地 AI 模型能力。
llama + spec: 由 am17an 提交的 MTP 支持 · Pull Request #22673 · ggml-org/llama.cpp
拉取请求为 llama.cpp 添加多令牌预测(MTP)支持,启用推测解码以加速推理。
@_avichawla: 研究人员发现了一种让大语言模型(LLM)提速 8.5 倍的方法!(且不影响准确度)投机解码相当有效……
研究人员提出了 DFlash 技术,这是一种利用块扩散模型(block diffusion models)进行投机解码的方法,可在不损失准确度的情况下,将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。
关于推测解码/MTP的交互式解释器
一个交互式指南,解释了大语言模型中的推测解码和多令牌预测,涵盖了从拒绝采样到Qwen 3.6和Gemma 4中使用的MTP等技术,配有实时图表和滑块。
最新的LM Studio更新导致MTP性能下降
有用户报告称,最新的LM Studio更新(0.4.17)消除了多令牌预测的速度提升,在RTX 5090配置上恢复到之前的性能。