LM Studio 终于支持 MTP 推测解码

Reddit r/LocalLLaMA 2026/05/20 03:10 工具

lm-studio speculative-decoding mtp local-llm inference update

摘要

LM Studio 在最新的 Beta 更新中增加了对 MTP 推测解码的支持，提升了本地大语言模型的推理速度。

https://preview.redd.it/1uuzjm0ll72h1.png?width=923&format=png&auto=webp&s=1af7d7594be1e08ff7ad6797e2bc53e9410769a3 更新到 0.4.14 Build 2 (Beta)，并确保你的 llama.cpp 引擎版本为 2.15.0。https://preview.redd.it/x0vdwjb3n72h1.png?width=742&format=png&auto=webp&s=6367de44208004d2f50194d78a542c46b040dceb 你还需要选择“手动选择模型加载参数”，并在加载模型前启用 MTP，它默认不是开启的。

查看原文

相似文章

@lmstudio: MTP 已在 LM Studio 0.4.14 中可用。请打开声音。

X AI KOLs Timeline

LM Studio 0.4.14 引入了 MTP（多轮提示）支持，增强了其本地 AI 模型能力。

llama + spec: 由 am17an 提交的 MTP 支持 · Pull Request #22673 · ggml-org/llama.cpp

Reddit r/LocalLLaMA

拉取请求为 llama.cpp 添加多令牌预测（MTP）支持，启用推测解码以加速推理。

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

X AI KOLs Timeline

研究人员提出了 DFlash 技术，这是一种利用块扩散模型（block diffusion models）进行投机解码的方法，可在不损失准确度的情况下，将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。

关于推测解码/MTP的交互式解释器