speculative-decoding

#speculative-decoding

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

X AI KOLs Timeline ↗ · 6小时前

一场关于AI推理的斯坦福讲座强调了KV-cache等实际瓶颈以及推测性解码和连续批处理等技术，比典型ML课程提供更多现实世界的洞察。

0 人收藏 0 人点赞

#speculative-decoding

CATS：面向内存受限 LLM 推理加速的级联自适应树猜测

arXiv cs.LG ↗ · 15小时前缓存

本文介绍了 CATS，这是一种级联自适应树猜测框架，旨在通过优化内存使用同时保持高 Token 接受率，加速内存受限边缘设备上的 LLM 推理。

0 人收藏 0 人点赞

#speculative-decoding

注意力漂移：自回归投机解码模型学到了什么

Reddit r/LocalLLaMA ↗ · 昨天缓存

本文指出了自回归投机解码模型中的“注意力漂移”现象，即草稿模型的注意力从提示词转移到了其自身生成的令牌上。作者提出了架构上的改进，例如后归一化（Post-norm）和 RMSNorm，这些改进在各种基准测试中提高了接受率和鲁棒性。

0 人收藏 0 人点赞

#speculative-decoding

AMD Strix Halo 上的 Luce DFlash + PFlash：Qwen3.6-27B 解码速度提升 2.23 倍，预填充速度提升 3.05 倍（相较于 llama.cpp HIP）

Reddit r/LocalLLaMA ↗ · 昨天

Luce 为 AMD Strix Halo APU 发布了 DFlash 和 PFlash 支持，在 Qwen3.6-27B 模型上，其解码和预填充速度相比 llama.cpp HIP 分别提升了 2.23 倍和 3.05 倍。

0 人收藏 0 人点赞

#speculative-decoding

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

X AI KOLs Timeline ↗ · 昨天缓存

该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持，并展示了使用 ROCm 时推理性能的显著提升。

0 人收藏 0 人点赞

#speculative-decoding

Gemma 4 MTP 与 DFlash 在单张 H100 上：密集模型 vs MoE 模型结果

Reddit r/LocalLLaMA ↗ · 昨天

该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较，结果显示 MTP 在密集模型上更快，而 DFlash 在 MoE 模型上更快。

0 人收藏 0 人点赞

#speculative-decoding

PARD-2：面向双模态投机解码的目标对齐并行草稿模型

arXiv cs.CL ↗ · 昨天缓存

本文介绍了 PARD-2，这是一种双模态投机解码框架，利用目标对齐的并行草稿模型加速大语言模型（LLM）推理，在 Llama 3.1-8B 上实现了最高 6.94 倍的无损加速。

0 人收藏 0 人点赞

#speculative-decoding

B9109：mtp 与 mmproj 的提前修复即将到来？看来确实如此

Reddit r/LocalLLaMA ↗ · 昨天

即将发布的更新将通过在草稿上下文中启用图像处理，解决多模态投影与多 Token 预测之间的崩溃问题。此次改动还引入了并行草稿支持，以提升投机解码的可扩展性。

0 人收藏 0 人点赞

#speculative-decoding

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending ↗ · 2天前缓存

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重，该模型由 Unsloth 进行优化，并采用多令牌预测（MTP）技术，以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

0 人收藏 0 人点赞

#speculative-decoding

SpecBlock：具有动态树草拟的块迭代投机解码

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 SpecBlock，这是一种块迭代式投机解码方法，通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比，它在保持更低草拟成本的同时展示了更高的加速比。

0 人收藏 0 人点赞

#speculative-decoding

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

Hugging Face Daily Papers ↗ · 2天前缓存

SlimSpec 为 drafter LM-head 引入了低秩参数化方法，以加速 LLMs 中的推测解码，在保持完整词表支持的同时实现了 4-5 倍加速。

0 人收藏 0 人点赞

#speculative-decoding

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Reddit r/LocalLLaMA ↗ · 3天前

这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本，启用了 MTP 自推测功能。通过修改后的 vLLM 设置，在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。

0 人收藏 0 人点赞

#speculative-decoding

@RedHat_AI: Qwen3-8B 现已拥有 DFlash 投机模型！在数学推理任务上首词接受率高达 82.2%，每步平均接受 3.74 个 token……

X AI KOLs Following ↗ · 3天前缓存

Red Hat AI 发布了用于 Qwen3-8B 的 DFlash 投机模型，在数学推理任务上实现了 82.2% 的首词接受率。该模型使用 Speculators 库和 vLLM 进行训练，以优化推理速度。

0 人收藏 0 人点赞

#speculative-decoding

@AlexJonesax: 如果你在 Mac 上运行 LLM，值得了解的两个开源 MLX 推理服务器：MTPLX (@youssofal) 利用模型自身的…

X AI KOLs Timeline ↗ · 3天前

本文介绍了两个适用于 Mac 的开源 MLX 推理服务器：MTPLX 通过投机解码（无需草稿模型）优化 token 生成速度，而 oMLX 则通过持久化的 KV 缓存提升代码智能体的工作流效率。

1 人收藏 1 人点赞

#speculative-decoding

@simplifyinAI: 研究人员刚刚通过零精度损失将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它取代了缓慢的自回归…

X AI KOLs Timeline ↗ · 3天前

研究人员提出了 DFlash，这是一种用块扩散模型替代自回归草稿模型的方法，在零精度损失的情况下实现了 8.5 倍的 LLM 推理加速。

0 人收藏 0 人点赞

#speculative-decoding

@Youssofal_：MTPLX V0.3 已发布！- 我意识到 M1 和 M2 Mac 并不支持 BF16，之前只是在模拟该格式，导致每秒生成的 tokens 数（TPS）显著下降……

X AI KOLs Timeline ↗ · 3天前缓存

MTPLX v0.3 已发布，这是一个专为 Apple Silicon 设计的原生运行时。它采用多 token 预测（MTP）技术将解码速度提高一倍，并通过 Leviathan-Chen 接受机制维持分布准确性。

0 人收藏 0 人点赞

#speculative-decoding

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

X AI KOLs Timeline ↗ · 3天前

研究人员提出了 DFlash 技术，这是一种利用块扩散模型（block diffusion models）进行投机解码的方法，可在不损失准确度的情况下，将大语言模型推理速度提升高达 8.5 倍。该技术已集成到 vLLM 和 SGLang 等主要框架中。

1 人收藏 0 人点赞

#speculative-decoding

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

X AI KOLs Following ↗ · 3天前缓存

DFlash 是一个用于投机解码的轻量级块扩散模型，现已支持 Qwen 和 Gemma 等各种大语言模型并投入生产环境使用。

0 人收藏 1 人点赞

#speculative-decoding

BeeLlama.cpp：支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5，速度比基线快 2-3 倍（峰值 135 tps！）

Reddit r/LocalLLaMA ↗ · 4天前

BeeLlama.cpp 是一个专注于性能的 llama.cpp 分支，引入了 DFlash 投机解码和 TurboQuant KV 缓存压缩技术，使得在消费级硬件上也能高速本地运行像 Qwen 3.6 27B 这样的大型模型。

1 人收藏 1 人点赞

#speculative-decoding

speculative-decoding

@polydao: 这堂关于AI推理的斯坦福课程比大多数ML课程更能让你了解LLM在生产环境中的运作方式 > Clau…

CATS：面向内存受限 LLM 推理加速的级联自适应树猜测

注意力漂移：自回归投机解码模型学到了什么

AMD Strix Halo 上的 Luce DFlash + PFlash：Qwen3.6-27B 解码速度提升 2.23 倍，预填充速度提升 3.05 倍（相较于 llama.cpp HIP）

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

Gemma 4 MTP 与 DFlash 在单张 H100 上：密集模型 vs MoE 模型结果

PARD-2：面向双模态投机解码的目标对齐并行草稿模型

B9109：mtp 与 mmproj 的提前修复即将到来？看来确实如此

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

SpecBlock：具有动态树草拟的块迭代投机解码

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

@RedHat_AI: Qwen3-8B 现已拥有 DFlash 投机模型！在数学推理任务上首词接受率高达 82.2%，每步平均接受 3.74 个 token……

@AlexJonesax: 如果你在 Mac 上运行 LLM，值得了解的两个开源 MLX 推理服务器：MTPLX (@youssofal) 利用模型自身的…

@simplifyinAI: 研究人员刚刚通过零精度损失将 LLM 的速度提升了 8.5 倍。这项技术被称为 DFlash。它取代了缓慢的自回归…

@Youssofal_：MTPLX V0.3 已发布！- 我意识到 M1 和 M2 Mac 并不支持 BF16，之前只是在模拟该格式，导致每秒生成的 tokens 数（TPS）显著下降……

@_avichawla: 研究人员发现了一种让大语言模型（LLM）提速 8.5 倍的方法！（且不影响准确度）投机解码相当有效……

@zhijianliu_: DFlash 现已在生产推理堆栈中运行。更多草稿模型即将推出。https://github.com/z-lab/dflash

BeeLlama.cpp：支持推理和视觉的先进 DFlash 与 TurboQuant。在 RTX 3090 上以 200k 上下文运行 Qwen 3.6 27B Q5，速度比基线快 2-3 倍（峰值 135 tps！）

更多 Qwen3.6-27B MTP 的成功案例，但这次是在双路 Mi50 上

提交意见反馈